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本书是信息论领域中一本简明易懂的教材。主要内容包括:请、信源、信道容最、率失真、数 
据压缩与编码理论和复杂度理论等方面的介绍。本书还对网络信息论和假设检验等进行了介 
绍，并且以赛马模型为出发点，将对证券市场的研究纳入了信息论的框架,从新的视角给投资组 
合的研究带来了全新的投资理念和研究技巧。 ' 

本书适合作为电子工程、统计学以及电信方面的高年级本科生和研究生的信息论基础教程 
教材,也可供研究人员和专业人士参考。 
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译者序 


Cover M. Thomas 与 Joy A. Thomas 的信息论基础可谓跨世纪的一本好书，其读者人数在信 
息论领域名列榜首。说本书是信息论领域中的 Bible (圣经），也不算过分。本书涉及的相关知识 
领域广泛，我们第一次接到翻译此书的任务时，多少有些惶恐，担心无法准确地将 Cover 的精 
神和深刻的内涵活灵活现地呈现给读者。1985年 Cover 曾经是沈世镒教授的老师。沈先生回国 
后在南开大学带出了许许多多的优秀学生。他们在国内乃至国际上都是信息论的骨干和学术带 
头人（比如，杨恩辉，孙凤文，张箴，符方伟，叶中行，岳殿武，陈鲁生等，他们曾以南开大 
学的信息论为荣，南开大学的信息论现在又以他们为荣）。为报 Cover 之师恩，也为更多不曾在 
南开大学学习的广大信息论学子能够领略 Cover 的大师风范，我们欣然接受了此项翻译任务， 
并且力争不辱使命。 

本书可谓信息贵巨大的好书。在熵、信道、信源、数据压缩与编码理论，复杂度理论等方 
面独具特色，网络信息论更是一个新的亮点。本书还以赛马模型为出发点，将证券市场的研究 
纳入信息论的框架内研究，给证券市场研究以一个新的视角。更难得的是，作者利用自己深厚 
的研究功力，将这三部分有机地结合在一起，不仅增加了信息论的内涵，也增加了读者群。特 
别是研究投资组合者，在适当学习第2章与第11章的基础 t， 读慊第6章与第16章，将会带来 
全新的投资理念和证券研究的新技巧。 

本书的写作风格独特，横跨信息论、信号学、计算机逻辑、概率论、图论以及金融等若干 
领域。因此，为了使得本书的翻译风格尽可能完整，并保持其在各领域的特色，我们在翻译中 
颇费心思，字斟句酌，反复思考，同时，虚心地请教南开大学从事相应领域的同亊，在此，对 
他们表示感谢。我们的许多研究生在第1版和第2版的翻译和校对的过程中也做出了贡献。而 
且，在第2版翻译时，我们虚心听取了第1版的读者的反馈意见，特在此向他们表示衷心感谢。 
最后，我们要对机械工业出版社华章分社表示感谢，编辑们的认真、仔细和热情合作提高了本 
书的翻译质 M。 


译者 
2007 年 7 月 



第 2 版前言 


自从本书第1版出版以来，我们希槊书中的许多方面能得到改进、重新编排或者扩充，但 
是需再版的限制并不允许我们在已经出版的书中实现这样的愿望。而今在出新版之际，我们终 
于有机会对原书做些改变，增加一些习题，同时，讨论一些在第1版中忽略的专题 3 

本书主要的变化 包括： 各章的重新编排，使得本书吏易于 教学； 还增加了 200多个新习题。 
在某些专题中，我们也增加了一些素材，如在普适性投资组合理论、通用信源编码、高斯反馈 
信道 容最、 网络信息论等方面，并且阐述 r 数据压缩和信道容 M 的对偶性。另外，本书还新增 
加了一章, 同时对原书中大 M 的证明过程进行简化，而且更新了参考文献和历史间顾点评。 

本书可以分成两个学期学习。违议第一学期学习第1〜9章，包括渐近均分性、数据压缩和 
信道容 tt , 结束于尚斯信 道容墩 U 第二学期学习余下的几章，包括率失真理论、型方法、科尔 
莫戈罗夫复杂度、网络信息论、通用信源编码和投资组合理论。如果只开一个学期的课，逑议 
将率失真、科尔莫戈罗夫复杂度和网络信息论加入第一学期的教学中，其中后两者只需各上一 
节课。 

自第1版以来，信息论迎来了它的50岁生 n (香农的领域开创性文章50周年纪念），源自 
信息论的许多思想已经广泛应用于科学技术的众多问题，如生物信息学、网络搜索、无线通信、 
视频压缩以及其他等。倍息论的应用是无止境的，然而其完美的数学理论始终是该领域敢引人 
注目的地方。我们希望借此书给大家带来某些共识，使得大家坚信在涉及数学、物理学、统计 
学和 T . 稈学的交叉领域中，信息论是 最有趣 的领域之一。 

TOM COVER 
JOY THOMAS 


Palo Alio , California 
2006 年 1 月 


第 1 版前言 


本书是一本简明易懂的信息论教材。正如爱因斯坦 所说： “凡事应该尽可能使其简单到不能 
再简单为止。”虽然我们没有深人考证过该引语的来源（据说最初是在幸运蛋卷中发现的），但 
我们自始至终都将这种观点贯穿到本书的写作中。信息论中的确有这样一些关键的思想和技巧， 
一旦掌握了它们，不仅使信息论的主题简明，而且在处理新问题时提供重要的直觉。 

本书来自使用了十多年的信息论讲义，原讲义是信息论课程的高年级本科生和一年级研究 
生两学期用的教材。本书打算作为通信理论、计算机科学和统计学专业学生学习信息论的教材。 

信息论中有两个简明要点。第一，熵与互信息这样的特殊埴是为了解答基本问题而产生的。 
例如，熵是随机变量的最小描述复杂度，互信息是度 M 在噪声背景下的通信速率。另外，我们 
在以后还会提到，互信息相当于已知边信息条件下财富双倍的增长。第二，回答信息理论问题 
的答案具有自然的代数结构。例如，熵具有链式法则，因而，熵和互信息也是相关的。因此， 
数据压缩和通信中的问题得到广泛的解释。我们都有这样的感受，当研究某个问题时，往往历 
经大 M 的代数运算推理得到了结果，但此时没有真正了解问题的全貌，最终是通过反复观察结 
果，才对整个问题有完整、明确的认识。所以，对一个问题的全面理解，不是靠推理，而是靠 
对结果的观察。要更具体地说明这一点，物理学中的牛顿三大定律和薛定谔波动方程也许是最 
合适的例子。谁矜预见过薛定愕波动方程后来会夯如此令人敬毘的哲学解释呢？ 

在本书中，我们常会在着眼于问题之前，先了解一下答案的性质。比如第2章中，我们定 
义熵、相对熵和互信息，研究它们之间的关系，再对这些关系作一点解释，由此揭示如何融会 
贯通地使用各式各样的方法解决实际问題。同理，我们顺便探讨热力学第二定律的含义。熵总 
是增加吗？答案既痒定也否定。这种结果会令专家感兴趣，仴初学者或许认为这是必然的而不 
会深人考虑。 

在实际教学中，教师往往会加人一些自己的见解。亊实上，寻找无人知道的证明或者有所 
创新的结果是一件很愉快的事情。如果有人将新的思想和已经证明的内容在课堂上讲解给学生， 
那么不仅学生会积极反馈“对，对，对”，而且会大大地提升教授该课程的乐趣。我们正是这样 
从研究本教材的许多新想法中获得乐趣的。 

本书加入的新素材实例包括信息论与博弈之间的关系，马尔可夫链背景下热力学第二定律 
的普遍性问题，信道容童定理的联合典型性证明，赫夫曼码的竞争最优性，以及关于最大熵谱 
密度估计的伯格 （ Burg ) 定理的 证明。 科尔莫戈罗夫复杂度这一章也是本书的独到之处。而将 
贽希尔信息，互信息、中心极限定理以及布伦-闵可夫斯基不等式与熵幂不等式联系在一起， 
也是我们引以为豪之处。令我们感到惊讶的是，关于行列式不等式的许多经典结论，当利用信 
息论不等式后会很容易得到证明。 

自从香农的莫基性论文面世以来，尽管信息论已有了相当大的发展，但我们还是要努力强 
凋它的连贯性。虽然香农创立信息论时受到通信理论中的问题启发，然而我们认为信息论是一 
门独立的学科，可应用于通信理论和统计学中。我们将信息论作为一个学科领域从通信理论、 
概率论和统计学的背景中独立出来，闪为明显不可能从这些学科中获得难以理解的信息概念。 

由于本书中绝大多数结论以定理和证明的形式给出，所以，我们期望通过对这些定理的巧 
妙证明能说明这些结论的完美性。一般来讲，我们在介绍问题之前先描述问题的解的性质，而 
这些很有趣的性质会使接 F 来的证明顺理成章。 



VI 


使用不等式串、中间不加任何文字、最后直接加以解释，是我们在表述方式上的一项创新。 
希望读者学习我们所给的证明过程达到一定数量时，在没有任何解释的情况下就能理解其中的 
大部分步骤，并自己给出所需的解释3这些不等式串好比模拟测试题，读者可以通过它们确认 
自己是否已掌握证明那些重要定理的必备知识。这些证明过程的自然流程是如此引人注目，以 
至于导致我们轻 视了写 作技巧中的某条重要原则。由于没有多余的话，因而突出了思路的逻辑 
性与主题思想。我们希望当读者阅读完本书后，能够与我们共同分享我们所推崇的，具有优美、 
简洁和自然风格的信息论。 

本书广泛使用弱的典型序列的方法，此概念可以追溯到香农1948年的创造性工作，而它真 
正得到发展是在20世纪70年代初期。其中的主要思想就是所谓的渐近均分性 （ AEP ), 或许可 
以粗略地说成“几乎一切事情都是等可能的”。 

第2章阐述了熵、相对熵和互信息之间的基本代数关系。渐近均分性是第3章重中之重的 
内容，这也使我们将随机过程和数据压缩的熵率分别放在第4章和第5章中论述。第6章介绍 
博弈，研究了数据压缩的对偶性和财富的增长率。 

可作为对信息论进行理性思考基础的科尔莫戈罗夫复杂度，拥有着巨大的成果，放在第14 
章中论述。我们的目标是寻找一个通用的最短描述，而不是平均意义下的次佳描述。的确存在 
这样的普遍性概念用来刻画一个对象的复杂度。该章也论述了神奇数 n , 揭示数学上的不少奥 
秘，是图灵机停止运转概率的推广。 

第7章论述信 道容量 定理。第8帝叙述微分熵的必需知识，它们是将早期容贵定理推广到连 
续哚声信道的基础。基本的高斯信道容 ft 问题在第9章中论述。 

第1〗章阐述信息论和统计学之间的关系，20世纪50年代初期库尔贝克 （ Kullback ) 首次对 
此进行了研究，此后相对被忽视。由于率失真理论比无噪声数据压缩理论®要更多的背景知识， 
因而将其放 K 在正文中比较靠后的第10 S 。 

网络信息理论是个大的主题，安排在第15章，主要研究的是噪声和干扰存在情形下的同时 
可达的信息流。有许多新的思想在网络信息理论中开始活跃起来，其主要新要素有干扰和反馈。 
第16章讲述股票市场，这是第6章所讨论的博弈的推广，也再次表明了信息论和博弈之间的紧 
密联系 o 

第°17章讲述信息论中的不等式，我们借此一隅把敗布于全书中的有趣不等式重新收拢在一 
个新的框架中，再加上一些关于随机抽取子集熵率的有趣新不等式。集合和的体积的布伦-闵 
可夫斯基不等式，独立随 机变撖 之和的有效方差的熵幕不等式以及费希尔信息不等式之间的美 
妙关系也将在此章中得到详尽的阐述。 

本书力求推理严密，因此对数学的要求相当高，要求读者至少学过一学期的概率论课程且 
有扎实的数学背景，大致为本科高年级或研究生一年级水平。尽管如此，我们还是努力避免使 
用测度论。因为了解它只对第〗6章中的遍历过程的 AEP 的证明过程起到简化作用。这符合我 
们的观点，那就是信息论基础与技巧不同，后者才需要将所有推广都写进去。 

本书的主体是第2, 3, 4, 5, 7, 8, 9, 10, 11和15章，它们自成体系，读懂了它们就可 
以对信息论有很好的理解。但在我们看来，第14章的科尔莫戈罗夫复杂度是深入理解信息论所 
需的必备知识。余下的几章，从博弈到不等式，目的是使主题更加连贯和完美。 

任何教程都有它的第一讲，目的是给出其主要思想的简短预览和概述。本书的第1章就是 
为这个目的而设置的。 

TOM COVER 
JOY THOMAS 


Palo Alto , California 
1990 年 6 月 
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第 1 章绪论与概览 


信息论解答了通信理论中的两个基本 问题： 临界数据压缩的值(答 案：熵 H 〉 和临界通信传输 
速率的值(答 案： 信道容撤 C )。 因此，有人认为信息论是通信理论的一个组成部分，但我们将竭 
力阐明信息论远不止于此。其实，信息论在统计物理（热力学）、计算机科学（科尔莫戈罗夫 
( Kolmogorov ) 复杂度或算法复杂度）、统计推断（奥克姆剃刀 （Occam Razor )： “最简洁的解释敢 
佳”）以及概率和统计(关于最优化假设检验与估计的误差指数)等学科中都具有奠基性的贡献。 
本章是“开场白”，通过介绍信息论及其关联的思想的来龙去脉，提纲荦领地给出该书的整体 


布局。所涉及的术语和内容，将从第2 
章开始逐步给予详细叙述和讨论。图 
1-1 揭示了信息论与其他学科之间的关 
系。如图中所示，信息论与物理学（统 
计力学）、数学(槪率论）、电子丄程（通 
信理论)以及计算机科学(算法复杂度） 
都有交叉。我们接下来对这些交叉的 
领域作更详细的说明。 

电子工程（通倌理论）。20世纪40 
年代早期，人们普遍认为，以正速率发 
送信息，而忽略误差槪率是不可能做 
到的然而，香农 （ Shannon ) 证明了只 
要通信速率低于信道容总可以使 
误差概率接近于零，这个结论*惊了 
通信理论界。信道容世可以根据信道 
的噪声特征简单地计算出来。香农还 
进一步讨论了诸如音乐和语音等随机 



信号都有一个不可再降低的复杂度， 

当低于该值时，信号就不可能被压缩。遵从热力学的习惯，他将这个临界复杂度命名为熵，并且 


讨论了当信源的熵小于信道容童时，可以实现渐近无误差通信。 

如果将所有可能的通信方案看成一个集合，那 数据 压缩临 界值 _ 

么今天的信息论描绘了这个集合的两个临界值，如 ^ 

图 1-2 所示。数据压缩达到最低程度的方案对应的 
是该集合的左临界值 /( X ; X )。 所有数据压缩方 
案所需的描述速率不得低于该临界值。右临界值 
/( X ; V ) 所对应方案的数据传输速率最大，临界值 
KX ; Y ) 就是信道容量。因此，所有调制方案和数据压缩方案都必须介于这两个临界值之间。 



数 据传编 临界值 


maxAA^: V) 


图 1-2 通信理论的信息论临界点 


信息论也提供能够达到这些临界值的通信方案。从理论上讲，最佳通信方案固然很好，但从 
计算的角度看，它们往往是不切实际的。惟一的原因是，只有使用简单的调制与解调方案时才具 
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有计算可行性，而香农信道容量定理的证明过程中所提出的随机编码和最邻近译码规则却不然。 
集成电路与编码设计方面的进展使得我们能获得香农理论所蕴涵的一些硕果。随着 Turbo 码的 
诞生，最终实现了计算的实用性。比如，纠错码在光盘和 DVD 中的应用就是信息论的一个绝好 
实例。 

信息论中关于通信方面的近期研究集中在网络信 息论： 存在干扰和噪声的情况下，大量发送 
器到大景接收器之间的通信同步率理论。目前，多个发送器与多个接收器之间的一些速率协定 
还无法预料，已有协定也有待于从数学上得到一定程度的简化。因而，一套统一的理论尚待 
发掘。 

计算机科学(科尔莫戈罗 夫复杂 度)。 科尔莫戈罗夫、 Chaitin 和 Sobmonoff 指出，一组数据串 
的复杂度可以定义为计算该数据串所需的最短二进制程序的长度。因此，复杂度就是最小描述长 
度。利用这种方式定义的复杂度是通用的，即与具体的计算机无关，因此该定义具有相当重要的 
意义。科尔莫戈罗夫复杂度的定义为描述复杂度的理论莫定了基础。更令人愉快的是，如果序列 
服从熵为 H 的分布，那么该序列的科尔莫戈罗夫复杂度 K 近似等于香农熵 H 。 所以信息论与科 
尔莫戈罗夫复杂度二者有着非常紧密的联系。实际上，科尔莫戈罗夫复杂度比香农熵更为基础。 
它不仅是数据压缩的临界值，而且也可以导出逻辑上一致的推理过程。 

算法复杂度与计算复杂度二者之间存在著微妙的互补关系。计算复杂度（也就是时间复杂 
度)与科尔莫戈罗夫复杂度(也就是程序长度或描述复杂度）可以看成是对应于程序运行时间与程 
□ U 序长度的两条轴。科尔莫戈罗夫复杂度是沿第二条轴的最小化问题，而计算复杂度是沿第•-条 
轴的最小化问题。沿两条轴同时进行 s 小化的工作几乎没有。 

物理学(热力学）。 熵与热力学第二定律都涎生于统计力学。对于孤立系统，熵永远增加。 
热力学第二定律的贡献之一是促使我们拋弃了存在永动机的幻想：*我们将在第4章中简述该 

定律。 / 

数学(概率论 和统计 学)。 信息论中的基本量 一 熵、相对熵与互信息，定义成概率分布的泛 
函数。它们中的任何一个®都能刻画随机变最长序列的行为特征，使得我们能够估计稀有事件 
的概率(大偏差理论），并且在假设检验中找到最佳的误差指数。 

科学的哲学观(奥克姆剃刀）。 奥克姆居士威廉说过“因不宜超出果之所需。”其意思是“最简 
单的解释 是最佳 的”。 Solomonoff 和 Chaitin 很有说服力地讨论了这样的 推理： 谁能获得适合处理 
数据的所有程序的加权组合，并能观察到下一步的输出值，谁就能得到万能的预测程序。如果是 
这样，这个推理可以用来解决许多使用统计方法不能处理的问题。例如，这样的程序能够最终预 
测圆周率的小数点后面遥远位置上的数值。将这个程序应用到硬币的正面出现概率为 0.7 的 
硬币抛掷问题中，也能得出推断。不仅如此，如果应用到股票市场，程序能从根本上抓住市场的 
‘‘规律”并做出最优化的推断。这样的程序能够从理论上保证推出物理学中的牛顿三大定律。当 
然，这样的推理极度的不切实际，因为清除所有不适合生成现有数据的程序需要花费的时间是不 
可接受的。如果我们按照这种推理来预测明天将要发生的事情，那么需要花一百年的时间。 

经济学(投资）。 在平稳的股票市场中重复投资会使财富以指数增长。财富的增长率与股票 
市场的熵率有对偶关系。股票市场中的优化投资理论与信息论的相似性是非常显著的。我们将 
通过探索这种对偶性来丰富投资理论。 

计算与通倍。 当将一些较小型的计算机组装成较大型的计算机时，会受到计算和通信的双 
重限制。计算受制于通信速度，而通信又受制于计算速度，它们相互影响、相互制约。因此，通 
E 信理论中所有以信息论为基础所开发的成果，都会对计算理论造成直接的影响。 



绪论与概览 


3 


本书概览 


信息论最初所处理的问題是数据压缩与传输领域中的问题，其处理方法利用了熵和互信息 
等基本量，它们是通信过程的概率分布的 函数。 先给出一些定义，这会有助于开始讨论，在第2 
章中我们会重述这些定义。 

如果随机变童 X 的概率密度函数为/那么 X 的熵定义为 

H ( X ) =- ^ p ( x )\ og 2 />(^) (1-1) 

使用以2为底的对数函数，熵的量纲为比特。^可以看作是随机变量的平均不确定度的度 M 。 在 
平均意义下，它是为了描述该随机变置所需的比特数。 

例 1.1.1 考虑一个服从均匀分布且有32种可能结果的随机变最。为确定一个结果，需要 
一个能够容纳32个不同值的标识。因此，用5比特的字符串足以描述这些标识。 

该随机变贵的熵为 

H ( X ) = - 2 />(*) log />(»•)=- 2 ^2^32 = 1呢32 = 5 比特 (1-2) 

这个值恰好等于描述该随机变最 X 所需要的比特数。在此情形中，所有结果都有相同长度的 
表示。 

下面考虑一个非均匀分布的例子。 

例 1 . 1.2 假定有8匹马参加的一场赛马比赛 3 设8匹马的获胜概率分布为 
A , m )。 我们可以计算出该场赛马的熵为 

H ( X )=_ jlog |_ 士 log +- 音 log 音-舂 log 忐-4古1呢占= 2比特 （1-3) U 

假定我们要把哪匹马会获胜的消息发送出去，其中一个策略是发送胜出马的编号。这样，对 
任何一匹马，描述需要3比特。但由于获胜的概率不是均等的，因此，明智的方法是对获胜可能 
性较大的马使用较短的描述，而对获胜玎能性较小的马使用较长的描述。这样做，我们会获得一 
个更短的平■均描述长度。例如，使用以下的一组二元字符串来表示8匹马： 0, 10, 110, 1110, 
111100, 111101, 111110, 111111。此时，平均描述长度为2比特，比使用等长编码时所用的3比 
特小。注意，此时的平均描述长度2正好等于熵。在第5章中，我们将证明任何随机变 M 的熵必 
为表示这个随机变*所需要的平均比特数的一个下界。另外，在“20问题”的游戏中，将所需问 
题的数目肴成随机变量，那么它的熵也是所需问题数目的平均值的 下界。 我们也将说明如何构 
造一些表示法使其平均长度与熵相比较不超过1比特。 

信息论中的熵与统计力学中的熵槪念有着紧密的联系。如果抽出一个包含”个独立同分布 
( i . i . d .) 的随机变量的序列，我们将证明该序列是“典型”序列的概率大约为而且大约只能 
抽出个典型序列。这个性质(著名的渐近均分性， AEP ) 是信息论中许多证明的基础。随后我 
们将介绍利用熵自然地解答的一些问题(例如，生成一个随机变量所需的抛掷均匀硬币的次数)。 

随机变最的描述复杂度的概念可以推广到定义单个字符串的描述复杂度。二元字符串的科 
尔 莫戈罗夫复杂 度定义为输出该字符串所需的最短计算机程序的长度。如果字符串确实是随机 
的，那么其科尔莫戈罗夫复杂度接近于它的熵。从统计推断和建模问题的角度考虑，科尔莫戈罗 
夫复杂度是一个自然的框架，使我们对 奥克姆 刹刀“最简洁的解释最佳”有更加透彻的理解。我们 
将在第14章中叙述科尔莫戈罗夫复杂度的••些简单性质。 




(1-4) 


单个随机变 M 的熵为该随机变童的不确定度 3 我们还可以定义涉及两个随机变 M 的条件熵 
H(x|y), 即一个随机变量在给定另外-个随机变量的条件下的熵。由另一随机变量导致的原 
T 1 随机变量不确定度的缩减最 称为互信息。 具体地讲，设 x 和 y 是两个随机变量，那么这个缩减 
量为互信息 

/(X ； y) = H(X)-H(X|V) = D /)(- r^)log (1-4) 

p ( x ) p ( y ) 

互信息 /( x ; y ) 是两个随机变量相互之间独立程度的度童，它关于 x 和 y 对称，并且永远为非 
负值，当且仅当 x 和 y 相互独立时，等于零。 

通 信信道 是一个系统，系统的输出信号按概率依赖于输人信号。该系统特征由一个转移概 
率矩阵决定，该矩阵决定在给定输人情况下输出的条件概率分布。对于输人信号为 x 
和输出信号为 y 的通信信道，定义它的信道容 * c 为 

C = max/(X ； y) (1-5) 

以后我们将证明容量是可以使用该信道发送^息的最大速率，而且在接收端以极低的误差概率 
恢复出该信息。下面用一些例子来说明这点。 

例 1 . 1 . 3( 无噪 声二元信道） 对于无噪声二元信道，二元输人信号在输出端梢确地恢复出 
来，如图 1-3 所示。此信道中，任何传输的信号都会奄无误差地被接收。因此，在每次传输中， 
可以将1比特的信息可靠地发送给接收端，从而信道容 M 为1比特，也可以计算得出信道 容埴为 
C = max /(X;V) = 1 比特。 

例 1.1.4( 有噪声四字符信道） 观察如图 1-4 所示的信道。在该信道中，传输每个输入字符 
时，能够正确地接收到该字符的槪率为误判为它的下一个字符的概率也为如果将4 个输 

人宇符全部考虑进去，那么在接收端，仅凭输出结果根本不坷能确切地判定原来传输的是哪个字 
\ J ] 符。另一方面，如果仅使用2个输入（比如1和 3), 我们立即可以根据输出结果知道传输的是哪 
个输入宇符。于是，这种信道相当于例 1.1.3 中的无噪声信道，该信道 t 每传输一次可以奄无误 
差地发送 1 比特信息。此时，珂以计算出信道容饿 C = max/(X ; Y), 亦等于 1 比特/传输，这符 
合上述分析。 



图 1-3 无噪声二元信道， C =1 比特 


图 1-4 有噪声信道 


一般，通信信道的结构不会像我们所举的例子这样简单，所以并不总能准确无误地识别出所 
发送的信息的某个子集。但是，如果考虑一系列传输，那么任何信道看起来都会像此例一样，并 
且均可以识别出输人序列集合(码字集)的一个子集，其传输信息的方 式是： 对应于每个码字的所 
有可能输出序列构成的集合近似不相交。此时，我们可以观察输出序列，能够以极低的误差概率 
识别出相应的输人码字。 

例1 . 1 .5 (二 元对称信道） 二元对称信道是有噪声通信系统的一个基本例子，如图15所 
示。此信道有一个二元输入，输出字符与输人字符相同的槪率为1_/>。另外，0被接收为1的概 
率为/>，1被接收为0的概率也是/>。此时，可以计算得到信道容景为 C = 1 + p\ogp + ( l - P ) 
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log ( l _/>) 比特/传输。如何达到该信道容量已经不再明显了。然而，如果多次使用该信道，那么该 
信道就会开始类似于例 1.1.4 所示的四字符信道，从而能以 C 
比特/传输的速率发送信息而几乎不发生误差。 • 

信道上的信息通信速率的临界值由信道容量决定。信道编 
码定理证明该临界值可利用较长的分组编码达到。在实际的通 
信系统中，由于能够使用的编码的复杂度是有限制的，因此我 
们一般无法达到该信道容 M 。 

互信息实际上是更广泛 ■的相 对熵 D ( p \\ g ) 的特殊情形。 

相对熵是两个概率密度函数/>和之间的“距离”度董，定义为 

Dip II q ) = S />( x ) log^j 

尽管相对煉并不是一个真正的度 fi , 但它有着度景的某些性质。特别是相对熵总是非负的，且它 
为0的充分必要条件为 p = q 。 在两个分布/»和(?之间的假设检验中，相对熵就是误差概率的指 
数。它也珥以用来定义概率分布的几何结构，使得我们能够解释大偏差理论中的许多结论。 

信息论和股票市场的投资理论有许多相似之处。可将股票市场定义为一个随机向量 X ,其分 
撤是非负的数值，等于某只股粟当天的收盘价与当天的开盘价的比值。若股泉市场的分布为 



图 1-5 二元对称信道 

( 1 - 6 ) 


F ( x ), 那么我们定义双倍率 VV 为 

W = max flogb ’ xdf 、( x ) (1-7) 

双倍率是财喊增长的 M 大渐近指数。双倍率有一系列性质与熵的对应性质类似。在第16章将探 
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讨这些性质。 

H , /, C , D , K , W 这些 M 自然出现在以下领 域中： 

• 數据压缩。 随机变 撖的熵 H 是该随机变 ft 的 M 短描述平均长度的下界。可以构造一个平 
均长度不超出熵1比特的描述。如果放宽完全恢 S 信源信息的限制，那么此时问：如果 
不计较失真 D 的话，需要多大的通信速率来描述信源？另外，需要多大的信道容《，才 
能让信源信息在信道上充分传输，并且在失真不超过 D 的情况下重构信源？这是率失真 


理论的研究课题。 

当我们试图对非随机性目标的最短描述的槪念进行严格定义时，科尔莫戈罗夫 K 杂度 K 的 
定义就应运而生了。在后面 • 我们将证明科尔莫戈罗夫复杂度的普适性并且满足最短描述理论 
的许多直观要求。 

• 数据传输。考虑信息传输问题是希望接收器能够以很小的误差概率将消息译码。从本质 
上讲，我们希望找到的码字(信道的输入字符序列）彼此之间离得足够远，目的是当它们 
在信道中被噪声污染后依然能够区分开来。这等价于高维空间中的填球问题。对任何码 
字集，要计算出接收器可能出错(换言之，将传送过来的码字做了错误的判断）的概率是 
可以办到的。然而，在绝大多数情形下，这种计算很繁琐。 

使用随机生成的编码方案，香农证明了，如果码率不超过信道容量 C ， 就能够以任意小的误 
差概率发送信息。随机生成码的思想非同寻常，为简化难解问题打下了基础。香农在该证明过 
程中所使用的关键思想之一是所谓的典型序列概念。容量 C 是可以区分的输人信号个数的 
对数。 

• 网络信息理论。 前面所提到的每一个主题涉及的均是单一信源或单一信道。如果我们希 
望压缩众多信源信息中的每一个，然后将压缩好的描述放在一起迸行信源联合重构，情 
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第 1 章 


况将如何？该问题由 Slepian - Wolf 定理解决。如果希望更多的发送器独立地对一个公共 
接收器发送信息，情况又如何？该信道的信道容童应该是多少？这样的信道称为多接人 
fiol 信道，已由 Liao 和 Ahhswede 给予了解答。如果有一个发送器和多个接收器，同时发送相 

同或不相同的信息给每个接收器，该如何处理？这样的信道就是广播信道。最后，如果希 
望在存在噪声和干扰的背景下，任意多个发送器与任意多个接收器之间可以随意互通信 
息，又该如何处理？从各发送器到各接收器，可达码率的容量区域是什么？这是一般网 
络信息论中的问题。所有上述问题都可以归结于多用户或网络信息论这个一般化的领域。 
虽然要获得一个全面的网络理论超出了现有的研究水平，但我们仍然希望对上述问题的 
所有解答只涉及互信息和相对熵的完美形式。 

• 遍历理 论 3 渐近均分定理表明，遍历过程的绝大多数长度为 M 的样本序列的概率近似为 
2_#,并且大约有个是这样的典型序列。 

• 假设检 验。相对熵 D 在两个分布之间的假设检验中，可以表征误差概率的指数，它是两 
个分布之间距离的自然 度撤。 

• 统计力学。 在统计力学中，熵 H 度墩一个物理系统的不确定程度或混乱程度。粗略地 
讲，熵是一个物理系统成形后的状态数的对数值。热力学第二定律说明，一个封闭系统 
的熵永不减少。后面我们会对第二定律做出一定的解释。 

• 量子力学。在最子力学中，冯•诺伊曼 (von Neumann ) 熵 S = tK / olnp ) = ^ XlogA , 扮演藿 

i 

经典的香农-玻尔兹曼 ( Shannon - Boltzmann ) 摘 H = - 的角色。由此获得数据压 

缩和信道容贵的量子力学形式。 ^ 

• 推理。 我们可以运用科尔莫戈罗夫复杂度 K 的概念找到数据的最短描述，也可以将它作 
为模型预测下一个数据是什么。使不确定度或熵最大化的模型可导出 ft 大熵推理方法。 

• 博弈与投资。财富 增长率 的最佳 指数由双倍率 W 决定。对于具有均匀收益机会的赛马， 
双倍率 W 与熵 H 之和为 常数。 而双倍率在边信息作用下的增 《 恰好是赛马与边信息之 
间的互信息/。股票市场中的投资行为也有类似的结论。 

• 概率论。渐近均分性 ( AEP ) 证明绝大部分序列是典型的，它们的样本熵接近于 H 。 因此, 
D 3 我们可以把注意力集中在大约2^个典型序列上。在大偏差理论中，考虑任何一个由分 

布构成的集合，如果真实分布到这个集合最近元的相对熵距离为 D , 那么它的概率大约 
为 r 、 

• 复杂度 理论。科尔莫戈罗夫复杂度 k 是对象的描述复杂度的度 M 。 它与计算复杂度有一 
定的关系，但不尽相同，因为计算复杂度度量的是计箅所葙要的时间或空间大小。 

信息论中的量(例如熵和相对熵)解决了通信理论和统计学中的许多基本问题而频频出现在 
该两门学科中。在研究这些问题之前，我们将先研究这些量的一些性质。在第2章中，我们开始 
(12] 从熵、相对熵和互信息的定义及其基本性质切入正题。 



第 2 章熵、相对熵与互信息 


从本章幵始介绍书中的大部分基本定义，为随后理论阐述的全面展开作个铺垫。毋庸置疑， 

我们要讨论这些基本概念之间的关系及其相应的解释，因为这在后面的讨论中会很有用。首先 
给出熵与互信息的定义，然后论述链式法则、互信息的非负性、数据处理不等式，最后我们通过 
考察充分统计 M 和费诺 ( Fano ) 不等式进一步解释说明这些定义。 

信息是个相当宽泛的概念，很难用一个简单的定义将其完全准确地把握。然而，对于任何一 
个槪率分布，可以定义一个称为熵 ( emropy ) 的 M , 它具有许多特性符合度量信息的直观要求。这 
个概念可以推广到 互信息 （mutual information ), 互信息是一种测度，用来度 M —个随机变量包含 
另一个随机变撒的信息燉。熵恰好变成一个随机变 M 的自信息。 相对熵 （relative emropy ) 是个更 
广泛的 ft , 它是刻画两个槪率分布之间的距离的一种度 M ， 而互信息又是它的特殊情形。以上所 
有这些景密切相关，存在许多简单的共性，本章会论述其中的一些性质。 

在以下各章中，我们将会展现这些 ft 是如何自然地回答有关通信、统计学、复杂度和博弈方 
面的大最问题的，由此也可以最终体现这些定义的价值。 

2.1 熵 

首先介绍熵的槪念，它是随机变 ft 不确定度的度撤。设； c 是一个离散型随机变 M , 其字母 _ 
表(即概率论中的取值空间）为槪率密度函数 />(: r ) = P r (X = : r ),: rei 。 为方便起见，记概率 QI ] 
密度函数为 〆 : r ) 以代替 /> X U ), 由此, 〆 * r ) 和 〆 : y ) 指两个不同的随机变实际上分别表示两 
个不同的概率密度函数/ > xU ) 和 Pv ( y)o 

定义一个离散型随机变爾 X 的熵 H ( X ) 定义为 

H ( X ) =- E p ( x )\ ogp ( x ) (2-1) 

有时也将上面的 M 记为 H ( p )。 其中对数 log 所用的底是2,熵的单位用比特表示。例如，抛 
掷均匀硬币这一事件的熵为1比特。由于当: r — 0时， orlogi — 0,今后我们约定 01 og 0 = 0, 因为 
加上零概率的项不改变熵的值。 

如果使用底为6的对数，则相应的熵记为味（；0。当对数底为 e 时，熵的单位 用奈特 （ nat ) 

表示。如无特别声明，一般选取对数底为2,因而熵的 tt 纲一般情况下为比特。注意，熵实际上 
是随机变 M X 的分布的泛函数，并不依赖于 X 的实际取值，而仅依赖于其概率分布。 

用£表示数学期望。如果 X 〜 pU )， 则随机变暈 g ( X > 的期望值可记为 

E p g ( X ) = ^ g ( x )/>( x ) (2-2) 

或者当概率密度函数可由上下文确定时，简记为 £ gU )。 我们将特别关注，当尽(幻 =1 °8^] 

时， g ( X ) 关于分布的怪异的自指涉数学期望。 

注释 X 的熵又解释为随机变量 log 的期望值，其中 p ( x ) 是 X 的概率密度函数。 


于是 



(2-3) 


H(X) = £ p log^ 

熵的这个定义与热力学中的熵是有联系的，在后面我们会阐述其中的某些联系。其实，通过 
定义随机变 ft 的熵必须满足的某些性质，可以采用公理化的方法获得熵的定义。该方法放在习 
(141 题 2. 46中说明。我们并不使用公理化方法来确立熵的定义，相反是根据许多自然问题的答案而 
确立熵的定义的，如“随机变量的最短描述的平均长度是多少”。首先，我们来肴熵这个定义的一 
些直接结果。 

引理 2.1.1 H(X)>Oo 

证 明：由 知 log(^j)^0 o □ 

引理 2.1. 2 H b (X) = (\ogta)H a (X) 0 

证明：由 1(^= (logAflMoga/) 即可得到。 □ 

熵的第二个性质告诉我们可以改变定义中对数的底。只要乘上一个恰当的常数因子，熵就可 
以从一个底变换到另一个底了。 

例 2.1 .丨设 

XJ 1 鄉为 > (2-4) 

lo 槪率为1-/> 

找 def 

H(X)= -plogp- (1 - p)log(l - p)~^H(p) (2-5) 

特别地，当= ^•时， H(X) = 1 比特。函数 /■/(/>) 的图形见图 2-1, 图示说明熵的一些基本 性质: 

H(/>) 为分布的凹函数，当/> = 0或1时， _,_,_, 丨 —■ _,_,_ 

H(/0=0。 这很有意义，因为当/> = 0或1 0.9 

时 ，变敢 不再是随机的，从而不具有不确定 0-8 / \ 

度。另外，当/> = 士时，变撖的不确定度达到 ol / \ : 

最大，此时对应于熵也取最大值。 | 05 / \ 

例 212 设 ：;:/ \： 

a 0.2 7 V 

b 概率为 n I n-y n ^ n 4 ns Oft 07 OR 09 1 


回 


(2-5) 


( 2 - 6 ) 


/ i (/0 与/ > 的关系曲线 


则 X 的熵为 


c 槪率为 f 
d 槪率为 i 


hu )= 一如 消+- 比特 


(2-7) 


假定利用最少二元问题数的方案确定变最 X 的值。有效的第一个问題是 “X = a 吗?"此问题 
分担了一半的概率。如 果第一 个问®的回答是否定的，则第二个问题可能是 “X = 6吗?”第三个 
问题可能是 = c 吗?”结果所需的二元问题数目的期望值为1.75。可以证明，这是为确定变童 
X 的值所需的二元问题数的最小期望值。第5章将证明，为确定 X 的值所需的二元问题数的最 
小期望值介于 HU ) 与 H ( X ) + 1 之间。 




、相对熵与互信息 



2.2 联合熵与条件熵 

在 2.1 节中定义了单个随机变量的熵。现在，将定义推广到两个随机变量的情形。由于可将 
( X , Y ) 视为单个向量值随机变童，所以定义其实并无新鲜之处。 

定义对于服从联合分布为 Mu) 的一对离散随机变量 （ x , y )， 其 联合熵 H(X, y ) (joint 
entropy) 定义为 

H ( X , V ) = - EE pU t y )\ ogp { x 9 y ) (2-8) 

上式亦可表示为 

jf ( x , v )= - Eiog />( x , y ) (2-9) 

也可以定义一个随机变量在给定另一随机变*下的条件熵，它是条件分布熵关于起条件作 
用的那个随机变贵取平均之后的期望值。 

定义 若 U,Y) 〜 p(x, ： y), 条件熵 （conditional entTOpy)f/(\1X) 定 义为： 

H ( VlX ) = S p ( x ) H(YlX = x ) (2-10) 


p(y I x)logp(>» I 

S S p(x ， 3»)logp(3»U) 


( 2 - 11 ) 

( 2 - 12 ) 


=-£log/>(y|X) (2-13) 

联合熵和条件熵的定义的这种自然性可由一个事实得到体现，它就是一对随机变 fit 的熵等 
于其中一个随机变 位 的熵加上另一个随机变 燉的条 件熵。其证明见如下的定理。 

定理 2.2. H 链式法則） 

H ( X , y ) = H ( X ) + H ( y | X ) (2-14) 

证明： 

H(X, y) = - /KuWogMjr.y) (2-15) 

=- 2 S (2-16) 

^ Xy^y 

=- 2 p (^* y )^ ogp ( x ) - 2 X ] u ) (2-17) 

=- S / >(x)log/)(x) - 2 S / >(^.^)k3g/)(3»U) (2-18) 


H ( X ) + H ( y | X ) 


等价地记为: 


iogp ( x , y ) = iogp ( x ) + log〆 y | x ) 

等式的两边同时取数学期望，即得本定理。 

推论 1 

H(X 9 YlZ) = H(XlZ) + H(YlX f Z) t ~L 

(2-21) 2 丄 

证明： 沿用上面定理的证明思路即可 1 1 

得到。 □ 3 ^ 

例 2.2.1 设（ X , Y ) 服从如下的联合 4 4 

分布： 


IV 


(2-19) DI 

( 2 - 20 ) 

□ 
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x 的边际分布为(+，士，★，音)， y 的边际分布为(+，如如|)，因而 hoo =j 比特， h ⑺ = 2 
比特。而且 


4 

H(X\Y) = 1]/>(Y = i)H(X\Y = i) 

|S 1 

(2-22) 

音) ++»(士，如 音•音) 


+ 4* H ( 4"* 4"*"4M ) + 4~ H(1,0,0,0) 

(2-23) 

1 x I + J x I + J x2+ J x0 

(2-24) 

=J 比特 

(2-25) 


同样， mvix ) = ¥ 比特，以及 mx ， y )=¥ 比特。 

注释注意 mvix ) 关 rnxi yo , 但 mx )- f / uiy ) = my )- my | x ), 稍后会用到 
W \ q 个性质。 

2.3 相对熵与互倍息 

熵是随机变 tt 不确定度的 度*; 它也是平均意义上描述随机变量所需的信息世的度 ffl 。 在 
本节中介绍两个相关的 槪念： 相对熵和互信息。 

相对熵 （relative emiopy) 是两个随机分布之间距离的度 M。 在统计学中，它对应的是似然比 
的对数期望。相对熵 D(/> llg) 度 ffl 当真实分布为/>而假定分布为9时的无效性。例如，已知随 
机 变员的 K 实分布为可以构造平均描述长度为 H(/>) 的码。但是，如果使用针对分布的编 
码，那么在平均意义上就需要 H ( p ) + D ( p \\ g) 比特来描述这个随机变贵。 

定义两个槪率密度函数为/ >( x ) 和 (/( x) 之间的相 对熵或 Kullback-Leibler 距离 定义为 

D(p II q ) = (2-26) 

=細韻 （2.27) 

在上述定义中，我们采用约定0 log 吾=0,约定 0 logi =0,/> log"J = oo( 基于连续性）。因 

此，若存在宇符0：€义使得 pU )> 0 9 q ( x ) = 0 t 則有 D(p|| g) = oo。 

稍后我们将证明相对熵总是非负的，而且，当且仅当/> = 9时为芩。但是，由于相对熵并不 
对称，也不满足三角不等式，因此它实际上并非两个分布之间的真正距离。然而，将相对熵视作 
分布之间的“距离”往往会很有用。 

现在来介绍互信息 (mutual information) ,它是一个随机变量包含另一个随机变 M 信息最的度 
量。互信息也是在给定另一随机变欺知识的条件下，原随机变量不确定度的缩减 

定义考虑两个随机变量 X和 Y， 它们的联合概率密度函数为 P ( x , y ), 其边际概率密度函 
19] 数分别是 M：r) 和 p(：y)。 互信息 /( X; Y) 为联合分布 p(:r,：y) 和乘积分布/ >U)p(：y) 之间的相对 
熵 ，即： 

/(X;Y) = SS pUty)[og ptVpb) (2_28) 

= D ( p ( x , y ) II p ( x ) p ( y )) (2-29) 
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= E ‘ y > log ^^ (2-30) 

第8章将此定义推广到连续型随机变量的情形，特别是式 (8-54) 适用于随机变量，它们可以 
是离散和连续随机变童的混合型。 

例 2.3.1 设义=|0，1|，考虑 Y 上的两个分布 />和“ 设/)(0) = 1-^/>(1) = 7*及(7(0)= 
1 - s ， g ( l ) = s ，则 


Dip II ^) = (1- r)log ^77 + rlog 


以及 


0( q II 户 ）= (1 一 sMogj^ + slog 含 

如果 那么 D( P \\ q) = D(q\\ p)=0 o 若 r = l/2,s = l/4, 可以计算得到 

JL J. 

D(p II ^) = ylogy + yk)gY = l - ylog3 = 0.2075 比特 


(2-31) 


(2-32) 


(2-33) 


3. 丄 

D(q || />) = -|-logy + ~logY = -|-log3- 1 = 0.1887 比特 

T T 

注意，一般 d(/>IU) 关 DQlIp ) 。 


(2-34) 


2.4 熵与互信息的关系 

可将互信息 /( x ; y ) 重新 写为： 

/(X 5V) = pU，:v)iog 忠忠 j 

=- ^jp(jc t y)\o^p(x) + y]p(x ,y)\ogp(x l>») 

x.> T.y 

= - 5J/)(x)logp(x) - S/KiyMog/Kx j (2-38) 

=H(X) - H(X\Y) (2-39) 

由此，互信息 /( x ; y ) 是在给定 y 知识的条件下 x 的不确定度的缩减僮。 

对称地，亦可得到 

/( x ； y ) = h ( y )- h ( vlx ) ( 2 - 40 〉 

因而， x 含有 y 的信息橄等同于 y 含有 x 的信息量 3 
由 2.2 节的 H ( X , y ) = H ( X ) + H ( y | X ), 可得 

I ( X ; Y ) = H ( X ) + H ( Y )~ H ( X , y ) (2-41) 

最后，注意到 

/(X;X) = H(X)-H(X|X) = H(X) (2-42) 

因此，随机变量与自身的互信息为该随机变量的熵。有时，熵称为 自信息 (self-information), 就是 
这个原因。 
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综合以上结论，有下面的定理。 

定理 2.4.1 ( 互信息与谲） 

UX ； Y) = H(X)-H(X\Y) (2-43) 

I(X;Y) = VO - Y\X) (2-44) 

I(X;Y) = H(X) + H ( y )- H(X, y ) (2-45) 
/( x ； y ) = /( y ； x ) (2-46) 

/(X;X) = H(X) (2-47) 


H ( X ), H ( y ), H ( X , y ), H ( X | y ), H ( Y|X)» 
/(X; y ) 之间的关系可用文氏图 （Venn diagram) 表示（见 
图 2-2) 0 可注意到，互信息 /(X; Y) 对应于 X 的信息和 
y 的信息的相交部分。 

例 2.4.1 基于例 2.2.1 的联合分布，容易计算此处 



阁 2-2 熵与互信息之间的关系 


的 互信息 /(X; y ) = H(X) - H(X| y ) = H(V)-H( y | X) =0.375 比特。 


2.5 熵、相对熵与互信息的链式法则 


现在证明一组随机变 M 的熵等于条件熵之和。 

定理 2.5.1 ( 熵 的链式法則） 设随 机变贵 U2, …，服从 〆 々，巧，…，〜）， 则 


灣 

H(X l9 X 2t -,X n ) = VhCX.IX, i ，…， X t ) (2-48) 

证明： 重复利用两个随机变 ft 情形时熵的展^法则，有 

H(X 1 ,X 2 ) = H(X l ) + H(X 2 IX I ) . (2-49) 

~22] H(X 1 ,X 2 ,X 3 ) = H(X i ) + H(X 2 ,X 3 IX i ) (2-50) 

= H(X,) + H(X 2 lX 1 ) + H(X 3 |X 2 ,X 1 ) (2-51) 


H(X l9 X 2t -,X n ) = H(X,) + HU 2 I X,) + … + H(XjX n . |f -,X,) (2-52) 

= …, D (2-53 ) 口 

• •■里 

n 

另一证明：由丨， j : 2 , …， j :”）= U /»(文. U .- i , …，工1)，可得 

f ■里 

H(X lf X 2 ,-,Xj 

=-/>(ar 1 ,x 2 , —,x n )log/)(x |f X 2 *-*,-r„) (2-54) 

=-S pUw.’^Ologll (2-55) 

•w . 夂 '■* 

=-X ] 公 U ，」 ， … ， (2-56) 

* ••囂 I 

m 

=-S S pUpjrwJlog/Kj, Uh, …, I i) (2-57) 

• ■1 i.-Xj.-.X, 

=- 2 p(j ： i,j ： 2 ， .” ， i.) lo g/ ) ( J: , li—i ， … ， Ii) (2-58) 

f -I 

=Emx.lx.-L-^X,) (2-59)D 

下面定义条件互信它是在给定 Z 时由于 Y 的知识而引起关于 X 的不确定度的缩减最。 




定义随机变量 X 和 Y 在给定随机变时的条件互信息 (conditional mutual information ) 定 


义为 


/(x ； y|z) = H(xiz)-H(xl y,z) 

=F , P ( X , Y \ Z ) 

- p(x\Z)p(Y\Z) 

互信息亦满足链式法则。 

定理 2.5.2 ( 互信息的链式法則） 


(2-60) 

(2-61) [K 


证明： 


Hx l9 x 2t -,x H iY) = S/(x l ； y|x t - 1 ,x l -. 2f .-,x 1 ) 

•*i 

nX lf X 2 t -,X n ； Y) 

=Hdu〉- H(x I ,x 2 ,-,xJy) 


(2-62) 


(2-63) 


(2-65) 


( 2 - 66 ) 


= E /( X i ； y | X 1 , X 2 ,-, X ,, 1 ) (2-64) 口 

下面定义相对熵 d 条件形式。 

定义对于联合概率密度函数 Mu ) 和 g ( x f y ), 条件相对场 （condidonal relative entropy ) 
D ( p ( ylx)ll q ( y \ x )) 定义为条件槪率密度函数 />(： yU ) 和 MjyU ) 之间的平均相对熵，其中取 
平均是关于概率密度函数 />(: r ) 而言的。更确切地， 

D ( p ( y \ x ) || (2-65) 

r ， , p(Y \ X ) /、 "、 

= E PU.yM^YTx) (2 ' 66) 

条件相对熵的记号并不确切，因为它忽略了起条件作用的随机变 M 的分布 p ( z )。 然而 ，一 
般情况下，可以根据上下文理解 a 

一对随机变贵的两个联合分布之间的相对熵可以展开为 相对痛 和条件相对熵之和。相对熵 
的这种链式法则可以用来证明 4.4 节中的一种热力学第二定律。 

定理 2.5.3( 相对熵的谜式 法則） 

D ( p ( x 9 y ) II q ( x , y )) = D ( p ( x ) II q ( x )) + D ( p ( y \ x ) II W ： r )) (2-67) 

证明： 

D ( p ( x 9 y ) || q ( x t y )) 

=( 2 - 68 ) 

卜*激謂 請 

=1] + 2 (2-70> 

= D ( p ( x ) || q ( x )) + D ( p(y I x ) II g(y I x )) (2-71)口 


( 2 - 68 ) 


(2-69) 


(2-70) 


~24~ 


(2-71 )D 


Jensen 不等式及其结果 


在本节中证明前面所定义的董的一些简单性质。从凸函数的性质开始讨论。 
定义若对于任意的及 0< A <1, 满足 
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f ( Xx x + (1 - X ) j ： 2 )^ Xf ( x x ) + (1 - A )/( x 2 ) (2-72) 

则称函数/(工)在区间 U ,6) 上是凸的 ( convex )。 如果仅当 A =0或 A = 1，上式成立，则称函数/ 
是严格凸的 （strictly convex ) 0 

定义如果 -/ 为凸函数，则称函数/是凹的。如果函数总是位于任何一条弦的下面，则该 
函数是 凸的； 如果函数总是位于任何一条弦的上面，则该函数是凹的。 

凸函数的例子有: r ' UUe ' arlogorUX )) 等等。凹函数例子包括 logx ( a :>0)。 图 2-3 
描绘了几个凸函数和凹函数的例子。可注意到线性函数 or + 6既是凸的也是凹的。凸性已成为 
讨论许多信息 理论髦 (例如熵与互信息）的基本性质的基础。在证明这些性质之前，先来看凸函 
数的几个简单结果。 




a ) 凸函数 


b ) 四由数 




K 2-3 凸函数和凹函数的例子 

J 5] 定理 2.6.1 如果函數/在某个区间上存在非负（正）的二阶导數，則/为该区间的凸函數 
(严格凸函数）。 

证明： 利用函数/在: To 点的泰勒级数展开： 

/( x ) = /( x 0 ) + /( x 0 )( x - a ： o ) + ^^" )( n 0 ) 2 (2-73) 

其中 x •位于 x c 与： r 之间。根据假设，因此，对任意的 ■!：, 嵌 后一项总是非 
负的。 

设+ (1 取可得 

/ UOS / U 。） + / U 0 )((l _ 广 x 2 )) (2-74) 

类似地，取 x = : r 2 , 可得 

/( x 2 )^/( x 0 ) + /( x 0 )( A ( a ：2 - j ： i )) (2-75) 

将式 (2-74) 两边乘 A ， 式 (2-75) 乘 1- A , 再相加，可得式(2-72)。对于严格凸性，同理可证。 □ 
利用定理 2.6.1 可以立即判定 • r ^ e '^ rlogo ' UX )) 都是严格凸函数，而 logi 和(其中 
0) 为严格凹函数。 

若用£表示数学期望，则 EX = X p ( x ) x 表示离散情形时的期望，而 EX = Jx / U ) dr 表 
间 示连续情形时的期望。 

下面的不等式是数学领域中最为广泛应用的一个，也是信息论中众多基本结论的基础。 

定理 2.6.2 ( Jensen 不等式）若给定凸函数/和一个随机变量 X ，則 

Ef ( X )^ f ( EX ) (2-76) 

进一步， 若/是严格凸的，那么式 （ 2-76) 中的等式 g 含 X = £X 的概率为 1( 即 X 是个 
常 量)。 

证明： 我们只证明离散分布情形，且对分布点的个数进行归纳证明。当/为严格凸函数时， 
等号成立条件的证明留给读者。 

对于两点分布，不等式变为 
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/+ p2f(i2 、 >f(Pi:i + Pi^i) (2-77) 

这由凸函数的定义可直接得到。假定当分布点个数为 A -1 时，定理成立，此时记 h = 
p*)(i = l ,2, …，卜 1), 则有 


2 /= pj 、 工 k) + (1 - />* )2 〆/(:•) 
i=i •=! 

% 

(2-78) 

> + (1 - pk)f 2 p^i 

••1 

(2-79) 

^/| Pk^k + (1 - Pk)^] piOCi 

(2-80) 

= / § M 'l 

(2-81) 


其中第一个不等式由归纳假设得到，第二个不等式由凸性的定义可得。 

通过对连续性的讨论，该证明可推广到连续分布情形。 

接下来，利用这些结果证明熵与相对熵的一些性质。下面的定理是极其重要的。 
定理 2.6.3( 信息不等式〉设/»(尤>,<?(0：)(0：€%)为两个概芈密度函数，則 

D(p\\q)>0 

当且仅当对任意的 x t p(x) = q(x) 9 等号成立。 

证明： 设 A = U : pU )>0| 为 〆 o :) 的支撑集，則 

- D(p \\q) =- 

= g/>U)log 韻 
<logg/>U ) 韻 

= logS 9(:) 

'€ A 


< logS 9(:) 

(2-87) 

=log 1 

(2-88) 

= 0 

(2-89) 


其中式 (2-85) 由 Jensen 不等式得到。由于 k ) gf 是关于 f 的严格凸函数，当且仅当 9 ( x )//> U ) 恒 
为常 tt [即对任意的 * r , 有 p (: r ) = n 7 U ) 成立 ], 式 （2-85) 中的等号成立。于是， ^ Zq ( x ) = 

x^A 

c ^ Zp ( x ) = Co 另外，只有当= 1] (7(： r ) = 1时，式 (2 _ 87) 中的等号才成立，这表明 

x^A x^A x^X 

c = lo 因此，当且仅当对任意的: r, 有 p(:r) = (zU), D(/>|| g ) = 0。 □ 

推论（互信息的非负性）对任意两个随机变量 x 和 y , 

HX ； Y)>0 (2-90) 

当且仅当入与 y 相互独立，等号成立。 

证明： /(X; Y) = D(p(x 9 y) II p(x)p(y))>0 9 当且仅当/ >(u) = pU)/>( ： y) (即 X 与 Y _ 

为相互独立），等号成立。 口 @ 

推论 

D(p(y\x)\\q(y\x))>0 ( 2 - 91 ) 





当且仅当对任意的： y 以及满足 /> U )>0 的： r , 有等号成立。 

推论 

I ( X ; Y \ Z )>0 (2-92) 

当且仅当对给定随机变量 z , x 和 y 是条件独立的，等号成立。 

下面证明字母表 AT 上的均匀分布是 Y 上的最大熵分布。由此可知， Y 上的任何随机变 ft 的镝 
都不超过 legible 

定理 2.6.4 HUXloglAI , 其中表示 X 的字母 表义中 元素的个数，当且仅当 X 服从 1 
上的均匀分布，等号成立。 

证 明：设 M U ) = ^ y 为1上均匀分布的槪率密度函数， />(•*；) 是随机变量 X 的槪率密度函 
数。于是 

D ( p \\ M )= l ：/>( x ) log ^ = log |^|- H ( X ) (2-93) 

因而由相对熵的非负性， 

0< D (/>|| u ) = logl ^|- H ( X ) (2-94 )D 

定理 2 . 6 . 5( 条件作用使熵减小 ）（ 信息不会有 ft 面 影响） 

//( XIVXH ( X ) (2-95) 

当且仅当 X 与 y 相互独立，等号成立。 

证明： 0</( X ； y ) = H ( X )- H ( XlY ) □ 

从直观上讲，此定理说明知道另一随机变《 y 的信息只会降低 X 的不确定度。注意，这仅 
对平均意义成立。具体来说， H ( X|y = ： y > 可能比 f /(; o 大或者小，或两者相等，但在平均意义 
上， H ( X \ Y ) = p ( y ) H ( X\Y = >)< H ( X ) 0 例如，在法庭上，特定的新证据可能会增加不 

确定度，但在通常况下，证据是降低不确定度的。 

例 2.6. 1设( X , y ) 服从如右图的联合 分布： 

则 f /( X ) = H (皆,*) = 0.544比特 • H ( X | y = l ) = 0 比特， 

H ( x | y =2) = i 比特。计算可得 H ( X | Y ) = -|- H ( X | y = i ) + 

+ Y = 2>=0.25 比特。因此，当观察到 y = 2 时，入的不 

确定度增加；而观察到 y = i 时， x 的不确定度降低了，但是在平均意义下 x 的不确定度是减 
少的。 

定理 2.6.6 ( 熵的独立界）设 X '， X 2 ，"， X ” 服从/ > U 丨，: r 2 , …，； ） ，则 

H ( X l , X 29 -, X r ,)< T l H ( X l ) (2-96) 

当且仅当 X , 相互独立，等号成立。 

. 证明： 由熵的链式法则， 

H ( X l 9 X 2t - 9 XJ = (2-97) 

• »1 

(2-98) 

其中的不等式直接可由定理 2.6.5 得到。当且仅 ; ^对所有的 I , m - i ， …，&独立(即当且仅 
当 X ,•相互独立），等号成立。 O 
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2.7 对数和不等式及其应用 


现在证明关于对数函数凹性的简单结果，它可应用于熵的一些凹性结论的证明。 
定理 2.7.1 ( 对数和不等式）对于非负数〜，七，…， 〜和 ~,6 2 , …人， 





30 


(2-99) 


当且仅当 f = 常数，等号成立。 

我们再次约定 0 log0 = 0, fl log^ = ~@a>0),01og|=0。 这些基于连续性很容易证明。 

证明： 不失一般性，假定屮>0,6,>0。由于对任意的正数 f 有 r(O = ^loge>0, 可知函数 
f ( t )- t\ogt 严格凸。因而，由 Jensen 不等式，有 

( 2 - 100 ) 


其中 ai > 0 ，YjOi = 1。令 a, = - r 1 - ^ * 可得 


这就是对数和不等式。 □ 

利用对数和不等式可以证明许多凸性结果。首先从重新证明定理 2.6.3 开始，该定理表明 
D (/>11 g )> 0 9 当且仅当等号成立。由对数和不等式， 

D(p II g)= (2-102) 

X ZpU ))\ og ^ pU )/^ Q ( x ) (2-103) 

=1 log y = 0 (2-104) 


当旦仅当^ = C ， 等号成立。由于/>和9均是概率密度函数，则 c = l ， 因而有 D ( p \\ 9) = 0, 
当且仅当对任意的 a ：,/>( x ) = gU )。 

定理 2.7.2 (相对熵的凸性） D(p II g ) 关于对 （/ >, 9 ) 是凸的，即，如果 （ Pi ， W ) 和 （/>2,仍）为 
两对概率密度函数，则对所有的 0< A <1, 有 

D(\p x + (1 - A)/> 2 II A^i + (1 - X)q 2 )^^D(p\ II 9i) + (1 ~ A)D(/> 2 II qi) (2-105) 

证明： 将对数和不等式应用于公式 (2-105) 左边的每 一项： 


(Ap i U) + ( 1 _ A) p 2 U)) log 

+ (1 - A )/> 2 ( x)log ( ( ! - aS ^ U ) 

对上述所有的 a： 求和，得到所要的 性质。 

定理 2.7.3( 熵的凹性） H (/>) 是关于 p 的凹 函数。 


(2-106) 

□ 


31 
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H (/>) = logl ^|- D (/>|| u ) (2-107) 

其中《为1<1个结果的均匀分布。从而 H 的凹性可由 D 的凸性直接得到。 □ 

另一证 明：设 Xi 是取值于集合 A , 分布为 Pl 的随机变量， X 2 是取值于相同集合且分布为 
/> 2 的另一随机变量。设 , 

jl 概率为 A 
~ 概率为1 一 A 

设2=為，则 z 的分布 + 此时，由于条件作用使熵减小，有 

H ( Z )> H ( Z \ d ) 

或等价地， 

H ( Xp ^ ( I - X ) p 2 )> XH ( p l ) (I - X ) H ( p 2 ) 

至此证明了当熵作为分布的函数时，它具有的凹性。 

熵的凹性的推论之 一是： 具有相同熵的两种气体混合后，熵必定增大。 

定理 2.7.4 设 （ X,y) 〜 p(x, ：y) = />(:r)p (: yU)。 如果固定 />(：y I or) , 則 互信息 /(X;y) 是 
关于 /)( 工） 的凹 函数； 而如果固定 pU), 則互信息 j(x;y) 是关于 />( ： yU) 的凸函数。 

证明： 为了证明第一部分，将互信息展开 

HX ； Y) = H(V) - H(YlX) = H(y) - Ep ( x ) H ( Y|X = x) (2-111) 

如果固定工），则 />(： y ) 是关于 pu ) 的线性函数。因关于 P ( 30 的凹函数 H ( y ) 也是 
pU ) 的凹函数。上式中的第2项是关于 PU ) 的线性函数。因此，它们的差仍是关于 /> U ) 的凹 

函数。 

为证明第二部分，先固定 p ( x ), 并考虑两个不同的条件分布和 p 2 ( y \ x ) o 相应的 
联合分布分别为 lor ) 和 p 2 ( x , y ) = p ( x ) p 2 ( y \ x ), 且各自的边际分布是 
/ >( x ), pi ( y ) 和 M * r )，/>2( y )。 考虑条件分布 

/>a(>»I^) == ^/ , i(> , I j： ) + (2-112) 

它是 Ablx ) 和/ » 2 (： yU ) 的组合，其中 0< A <1。 相应的联合分布亦是对应的两个联合分布的组 
合， 

Pa ( 工， y ) - A/),(x,^) + (1 - X ) p 2 ( x , y ) (2-113) 

y 的分布也是一个组合， 

Px(y) = + (1 - A)p 2 (> , ) (2-114) 

因此，如果设力(^) = />(0：〉九(>0为边际分布的乘积，则有 

qx (^* y ) = + (1 -又) <?2( u ) (2-115) 

由于互信息是联合分布和边际分布乘积的相对熵，有 

HX ; Y ) = D ( p x ( x , y ) II 9 a (:，，)） （2-116) 

相对熵 D ( p \\ (?) 为关于二元对 (/>,<?) 的凸函数，由此可知，互信息是条件分布的凸函数。 口 


(2-108) 

(2-109) 

( 2 - 110 ) 

□ 


2.8 数据处理不等式 

数据处理不等式可以说明，不存在对数据的优良操作能使从数据中所获得的推理得到改善。 
定义如果 z 的条件分布仅依赖于 y 的分布，而与 x 是条件独立的，则称随机变量 
Z 依序构成马尔可夫 ( Markov ) 链(记为 X — Y — Z )。 具体讲，若 X ，的联合概率密度函数可 
写为 

p(x t y,z) = p(x)p(y\x)p(z\y) (2-117) 
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则乂，7,2构成马尔可夫链久—>^2。 

一些简单结果 如下： 

• x - y - z , 当且仅当在给定 y 时， x 与 z 是条件独立的。马尔可夫性蕴含条件独立性是 
因为 

M ： r ， Z b ) = ^^ = ^^^ = />(: rl 30/>( Z b ) (2-118) 

马尔 玎夫链 的这个特性可以推广到定义《维随机过程的马尔可夫场，它的马尔可夫性 
为： 当给定边界值时，内部和外部相互独立。 

• x - y-z 蕴含 2- y - x 。 因此，有时可记为 x — y 〜 z 。 

• 若 z =/ ⑺，贝 1 J x 一 y — z 。 

现在来证明一个重要而有用的定理，表明不存在对 y 进行确定性或随机性的处理过程，使 
得 y 包含 x 的信息最增加。 

定理 2.8.1 ( 数据处理不等式）若 x — y — 2,則有 nx ; y )>/( x ; z )。 

证明： 由链式法则，将互信息以两种不同方式 展开： 

/( x ； y , z ) = /( x ； z ) + /( x ； y | z ) ( 2 - 119 ) 

= /( x ； y ) + /( x ； z | y ) ( 2 - 120 ) 

由于在给定 y 的情况下， X 与2：是条件独立的，因此有 /( X ; ZlV )=0 o 又由于 /( X ; YIZ ) 彡 [34 
0,则有 

UX ; Y )> UX ； Z ) (2-121) 

当且仅当 /( X ; y |20=0( 即； C - Z — Y 构成马尔可夫链），等号成立。类似地，可以证明 /( Y ; 
20>/U;Z )。 d 

推论特别地，如果 Z = g ( y ), 則 UX ； Y )> I ( X ； g ( Y))o 

证明： x — y —/?( y ) 构成马尔可夫链。 口 

这说明数据 y 的函数不会增加关于 x 的信息 a 。 

推论如果 x — y - z , 則 Mx ; y |2：)< JU ; y )。 

证明： 由式 (2-119) 和式 (2-120) 及利用 I ( X ； Z \ y ) = 0( 由马尔可夫性）， / U ; z )>0, 我 

们有 

I ( X ； Y \ ZXUXiY ) (2-122) 口 

于是，通过观察“顺流”的随机变量 2 T , 可以看到 X 与 Y 的依赖程度会有所降低（或保持不 
变）。 注意， 当 不构成马尔可夫链时，有可能 /( x ; y | z )>/( x ; y )。 例如，设 x ， y 是 
相互独立的二元随机变最， z = x + y , 则 /( x ; y )= o , 但 /( x ; y | z ) = H ( xiz)-HUl y ， z ) = 

mxiz ) = pu = i ) mxiz = i ) = ^ ■比 特。 

2.9 充分统计量 

本节间接地说明利用数据处理不等式可以很好地阐明统计学中的一个重要思想。假定有一 
族以参数0指示的概率密度函数 I /«( X ) I ， 设 X 是从其中一个分布抽取的样本。设 T ( x ) 为任意 
—个统计量(样本的函数），如样本均值或样本方差，那么 ^ X - T ( X ), 且由数据处理不等式， 

对于0的任何分布，有 

Ud ； nX ) XHd ; X ) (2-123) 

然而，若等号成立，则表明无信息损失。 
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如果 nx ) 包含了 X 所含的关于沒的全部信息，则称该统计量 TU ) 关于0是充分的。 

定义如果对0的任何分布，在给定 7 XX ) 的情况下， X 独立于扒即 d ^ T ( X )-* X 构成马 
尔可夫链），则称函数了(；0是关于分布族|/,(工）|的充分 统计量 (sufficient statistic )。 

这个定义等价于数据处理不等式中等号成立的条件，即对彡的任意分布，有 

I(0;X) = I(0iT(X)) (2-124) 

因此充分统计量保持互信息不变，反之亦然。 


以下是有关充分统计*的几个 例子: 


1. 设；^,乂 2 ，…，是拋掷硬币过程所产生的独立同分布 ( U . d .) 序列，其中 X ,6 |0，1|,参 
数沒 = Pr ( X , = l ) 未知。若给定 W ，则序列中出现1的个数是关于0的一个充分统计量, 

即 T(X l ,X 2f - 9 X n ) = 1]尤。事实上，玛以证明在给定丁的情况下，所有出现相同数 
目1的序列都是等可能的，且独立于参数心具体讲， 


Pr^ (Xi t X 2 f-',X„) = (xi ， x 2 , — ,x n ) 



= k 




如果 = 々 
其他 


(2-125) 


所以沒 — ，…， XJ 构成马尔口了夫链，了是关于沒的充分统计贵。 

接下来的两个例子虽然涉及的是连续情形而不再是离散情形 F 的概率密度函数，但该理 


论仍能应用。连续型随机变贵的熵与互信息的定义在第8章。 


2. 如果 X 服从均值为心方差为1的正态分布，即，如果 


/ 〆 :) =左 _ ( w > 、鄭， 1) * (2-126) 
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且 X lt X 2 , -, x n 相互独立地服从该分布，那么样本均值 X „ = jgx , •为关于6的充分 

统计》。可以验证，在给定兄 •和” 的条件下， X lf X 2 ,-, X n 的条件分布不依赖于沒。 

3. 如果 /, = Uniform (^^+ l ), 那么关于0的充分统计 fi 是 


nx i ,x 2 t -,x n ) 

= ( max ) X 1 , X2 » ,,, » X >t | .mini Xi ， X 2 , …， ) (2-127) 

这个证明比较复杂，但再次表明在统计量 了给定 的情况下数据的分布独立于参数。 

如果一个充分统计量是其他所有充分统计量的函数，则称该统计童为最小充分统计量。 

定义如果统计量丁 U ) 为其他任何充分统计 撳以的 函数，则称丁( X )是关于 l / 0 U ) l 的最 
小充分 统计量 (minimal sufficient statistic )。 通过数据处理不等式解释，此定义蕴含 

0^ T ( X )— U ( X)~^X (2-128) 

因而，最小充分统计量最大程度地压缩了样本中关于0的信息，而其他充分统计贵可能会含 
有额外的不相关信息。例如 • 对于均值为0的一个正态分布， 取奇数 样本的均值和取偶数样本的 
均值所构成的函数对是一个充分统计量，但不是最小充分统计量。而前面所述例子中的充分统 
计童都是最小的。 


2.10 费诺不等式 

假定知道随机变量 y , 想进一步推测与之相关的随机变 tfx 的值。费诺不等式将推测随机 
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变童 X 的误差概率与它的条件熵 H ( X | y ) 联系在一起。在第7章的香农信道容量定理的逆定理 
证明过程中，费诺不等式起了至关重要的作用。从习題 2.5 中可以知道，给定另一个随机变 tt 
y , 随机变 M x 的条件熵为 o 当且仅当 x 是 y 的函数。因而，可以通过 y 估计 X ，其误差概率为 
0 当且仅当 mx | y )= o 。 

推而广之，我们希望仅当条件熵 WXI V 0 较小时，能以较低的误差概率估计 X 。费诺不等 
式正好量化了这个想法。假定要估计随机变量 X 具有分 布 〆 : r )。 我们观察与 X 相关的随机变 
里 Y ， 相应的条件分布为 p (： yl ： r )， 通过 y 计算函数 = 其中又是对 X 的估计，取值空 


间为我们并不要求 /与1 必须相同，也允许函数 g ( y ) 是随机的。对 x 关 X 的槪率作一个界。 
注意到又构成马尔可夫链。定义误差概率为 

P, = Pr|X^Xl (2-129) 

定理 2.10.1 (费诺不等式）对任何满足 X— 又的估计量 X, 设 & = PHX 爹又 1, 有 

H ( P f ) + PM \^\^ H ( X \ X )> H ( X \ Y ) (2-130) 

上述不等式可以减弱为 

l + P , logl ^|> H ( X | y ) (2-131) 


或 


( 2 - 132 ) 

注释明显地，由式 (2-130) 可知， P , = 0 可推出 WX | y ) = 0。 

证明： 先不考虑 y , 证明式 (2-130) 中的第一个不等式，然后利用数据处理不等式证明费诺 
不等式的更为经典的形式，即式 (2-130) 中的第二个不等式。定义一个误差随机变错， 


1如果父关 X 

0 如果 X=x 


(2-133) 


利用熵的链式法则将 H (£, XI ：?)以两种不同方式展开，有 

H (£, X | X ) = H ( X | X ) + H ( E | X , X ) (2-134) 

= H ( E \ X ) + H ( X \ E t X ) (2-135) 

由于条件作用使熵减小，可知 Ho ：： i ； o < m £：)= mR )。 因为£是久和父的函数，所以， 

条件熵 m £ ix ， y ) 等于0。又因为£是二值随机变《，故 H (£) = H ( 尺）。对于剩余项 H(xl H 
£，又）可以界定 如下： 

H(XlE,X) = Pr(E-0)H(XlX,E = 0) + Pr(E = l)H(X|X,£ = l) 

<( l - P ,)0+ P , log | A , | (2-136) 

上述不等式成立是因为当 E = 0 时 ， X = X ； 当£= 1时，条件熵的上界为 X 的可能取值数目的 
对数值。综合这些结果，可得 

H ( P ,) + P , logi ^|> H ( XlX ) (2-137) 

因为 x — y — 又构成马尔可夫链，由数据处理不等式可知 /( x ； xx /( x ； y ), 从而 wxi 又)> 
H ( x | y ) 0 于是，有 

H ( P e )^ P f \ og \^\> H ( X \ X )> H ( X \ Y ) (2-138) 口 

推论对任意两个随机变量 X 和 V ， 设 p = Pr(X 关 y ), 

H(/>) + />log|^|^H(X|y) - (2-139) 

证明： 只需在费诺不等式中令 X = Y 即可。 □ 
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对两个任意的随机变量 x 和 Y , 如果估计量 g ( y ) 在集合 Y 中取值，那么可以在不等式中将 
loglYl 替换为 log (| Y | -1)，从而获得较强的结果。 

推论 = 則 

H(PJ + P e \og(\X\ -l)^H(X\Y) (2-140) 

证明： 该定理的证明过程除下面的式子外都没有变化 

H ( Xl £, X ) = Pr (£ = 0) H ( X | X ,£ = 0) + Pr (£ = l ) H ( X | X,E = l ) (2^141) 

<(1 - P r )0^P f \og( UI - 1) (2-142) 

其中，不等式成立是因为当 E = 0 时 ， X = X ; 当 £=1 时， X 的可能取值个数为1,因而条 
39] 件熵的上界为 log (| i | - 1), 即可能取值数目的对数值。由此获得一个加强的不等式。 □ 

~ 注释假定没有任何关于 Y 的知识，只能在奄无信息的情况下对 X 进行推测。设 Xeil , 

2 ,…， m I 且则对 X 的最佳估计是父=1,而此时产生的误差概率为尺=1 - 
p lo 费诺不等式变为 

H ( P r ) + P r log ( m - l )^ H ( X ) (2-143) 

且概率密度函数 

可以达到等号成立的界。因此，费诺不等式是梢确的。 

最后介绍一个体现误差概率与熵之间关系的新不等式。设 X 和; C ' 为两个独立同分布的随机 
变 tt , 有相同的熵 H ( X ), 那么 X = X ' 的槪率为 

PrU = X 》= ^p 2 (x) (2-145) 

由此得到如下的不 等式： ' 

引理 2.10.1 如果 X 和 X '独立同分布，具有熵 H ( X ), 則 

Pr(X = X ， )>2- Hix) (2-146) 

当且仅当 X 服从均匀分布，等号成立。 

证明:假定 X 〜 p (: r )。 由 Jensen 不等式，可得 

2 f ； fc « p ( X )^ E 2 i ^( X ) (2-147) 


含义是 

2 H(x) = 2 zpu) ^ u) <i ： p(x)2 k * /,u) ^ ZpHx) 
推论设 X 和 X '相互独立，且 X 〜 〜 rU ),: r , x ' eY , 那么 

Pr(X = X / )>2- H(/,,_D(/,l,r) 

Pr(X = X ， )>2- HU) - DUit，) 

40] 证明： 我们有 

2-H(p)-D(plr)_ 2 i ： p(x)t«p(x)* Sp(x)k« ^ 

= 2^-p{x)^air(x) 

< S />( x )2^ U) 

=sp(x)r(x) 

= Pr ( X = X ， ) 

其中的不等式可由 Jensen 不等式和函数 /(： y ) = 2 y 得到。 

下面给出的要点省去了某些必需的限制条件，请读者自己査对。 


(2-148) 口 

(2-149) 

(2-150) 

(2-151) 

(2-152) 

(2-153) 

(2-154) 

(2-155) 

□ 




璃、相对熵与互信息 


23 


要点 

定义离散型随机变 ax 的熵 h ( x ) 定义为 

H ( X ) =- S p(x)\ogp(x) (2-156) 

fl 的性质 

1. H(X)X )。 

2. H 6 ( X ) = ( log ^) H a ( X ) 0 

3. (条件作用使熵减小)对两个随机变 MX 和 y , 有 

H(Xl y)<H(X) (2-157) 

当且仅当 x 与 y 相互独立，等号成立。 

4. mxi ， x 2 , …， x „)< 当且仅当随机变 mx , 相互独立，等号成立。 

*•1 


5. H ( X )< log |^|, 当且仅当 X 服从 Y 上的均匀分布，等号成立。 

6. H ( p ) 关于/>是凹的。 

定义槪率密度函数 p 关于槪率密度函数 g 的相对熵 D(p II q) 定义为 


D (/> || 9 ) - 

(2-158) 

定义两个随机变撤 x 和 y 之间的 互信息 定义为 



(2-159) 

其他表达式 


H ( X ) = E , log p( 1 x) 

(2-160) 

H(X,Y) = EM p( x,Y) 

(2-161) 

H(X\Y) = EMj(^Y) 

(2-162) 

nx ； Y) = EM-^fh 

(2-163) 

Dip li q) = E p hg^^ 

(2-164) 

D 和 J 的性质 

1. /( X ； y ) = H(X)- H(XIY) = H(Y)-H(Y\X) = H(X)^H(Y ) - 

2. D(pWq)>0, 当且仅当对任意： P(x) = q(x) 9 等号成立。 

- mm 。 


3. UX ; Y )^ D ( p ( x t y ) II p ( x ) p ( y ))>0, 当且仅当= pU )/> b )( 即 X 与 Y 相 

4. 若 ai = m ， £/是义上的均匀分布，則 mpiu )=iogm-m/o。 

5. D ( p \\ (/) 关于二元对 (/>,«?) 是凸的。 

链式法则 :囊:: 

摘： H ( X u X 29 -, X n ) = SH(X i |X,_ 1 ,-,X 1 ) 



互 信息: /(x,,x 2 ,-%x n ； y) = SKx i ； vlx 1 ,x 2f -.x l - 1 ) 

1*1 

相 对熵： D(p(x t y) II g(x y y)) = D(p(x) II q(x)) ^ D(p(y\x) li g(：yU)) 
Jensoi 不等式若 / 为凸函数，则 E/U)>/(£X)。 

对数和不等式对于 W 个正数 <^42,… ， A 和 …，^ • 




(2-165) 


当且仅当 @ = 常数，等号成立。 

数据处理不等式若 x—y—z 构成马尔可夫链，则 /(x ; vo>/(x ; 2：)。 

充分统计置了（ X )关于是充分的当且仅当对 d 的所有分布， UO ； X )^ I (0； 

T(X))o 

费诺不等式设 P, = Fr|X(y) 关XI ,则 

H(P,) + P,log|Af|>H(X|y) (2-166) 

不等式如果 X和X'相互 独立且 同分布，那么 

Pr(X=X / )^2- H(x, (2-167) 


2.1 掷硬币。拋掷一枚均匀的硬币，直到第一次出现正面为止，设 X 表示所 W 的拋掷次数。 

( a ) 求熵 H ( X ), 单位为比特。下面的两个表达式可能会用到： 

§/ = 1^7. § wr " = ( T ^ 

( b ) 假定随机变撤 X 服从该分布。试找出一个“有效"的是否型问题序列，其问题形式如 “X 
包含于集合 S 吗?”将 H ( X ) 与确定 X 取值所需问题数的期望值进行比较。 

2.2 函数的熵。设 X 是取有限个值的随机变贵。如果 

( a ) V = 2 X • 

( b ) y = cosX 

rnx ) 和 my ) 的不等关系(或一般关系)是什么？ , , 

2.3 最小熵。求/…， A «) = H ( p ) 的最小值，其中 P 的取值域为”维槪率向燉集合。请找 

出所有达到这个最小值时的 P 。 

2.4 随机变量的函数的熵。设 X 为离散型随机变 M 。 请通过验证如下步骤证明 X 的函数的熵 
必小于或等于 X 的熵: . 

H ( X ,^( X )) = H ( X ) + H (^( X )| X ) (2-168) 

= H ( X ) … ;； (2-169) 

H ( X ^( X )) = H (^( X )) + H ( Xlg ( X )) (2-170) 

>H(g(X)) (2-17D 



因而有 H(g(X)XH(X) 0 

\.5 零条 件熵。 证 明：若 H(Y|X 〉 =0, 则 Y 是 X 的函数（即对于满足 />(x)>0 的任意 x , 仅存 
在一个可能取值 :V, 使得 />(•!：, ： y)>0 )。 

>.6 条件互信息与无条件互信息。 试给出联合随机变 MX, Y 和 2 的例子，使得 

( a ) I(X;Y\Z)<HX;Y) 

(b) /(x ； y|z)>/(x ； y) 

l.l 硬 币称重 3 假定有 ri 枚硬币， SI 能有一枚或者没有假币。如果是假币，那么它的重量要么 
重于其他的硬币，要么轻于其他的硬币。用天平对硬币称重。 

( a ) 若称重 A 次就能发现假币（如果存在），且能正确判断出该假币是重于还是轻于其他硬 
币 ^ 试求硬币数 ri 的上界。 

(b) ( 较难〉试给出对 12 枚硬币仅称々 =3 次就能发现假币的称重策略。 

2.8 有放回与无放回柚取。 一个容器里面装有 r 个红球， w 个白球和 6 个黑球。若从容器中抽 
取走个球 U>2), 对有放回和无放回两种情形，哪种情形的熵更大？请回答并给予证明。 
( 有两种方法可以回答该习题，一种较难，而另一种相对较简单。） 

2.9 度量 。对任意的和 : V ， 满足 

• p(x,y)^0 

• p(x f y) = p(y t x) 

• 当且仅当 1 = 义 ^1,7)=0 

• p(x t y)^ p(y 9 z)^p(x t z) 

则称函数 〆 U) 为一个度 tt 。 

( a ) 证明 〆 x,y) = H(x|y) + H(yi;o 满足上述第一条、第二条和第四条性质。如果存 
在从 X 到 y 的一对一函数映射，我们说 X=y, 那么 〆 X,Y) 也满足第三条性质，因 
而它是度扯。 

(b) 验证 p(X ， vo 也可表示为 

^(x.y) = h(x) + h(v)- 2 /(x ； y) ( 2 - 172 ) 

= H(X,V)-/(X ； y) (2-173) 

= 2H(X,y) -H(X)-H(y) (2-174) 

2.10 不相交组合的熵。 设离散型随机变的概率密度函数分别为 />〆• ） 和户 2 …），字 
母表分别为尤 1= |1 ， 2,… ，二 lm + 1 •… ， n |。 设 

(X, 槪率为 a 
X "|x 2 概率为 1 -d 

( a ) 试求 H(x ) 关于和 a 的表达式。 

(b) 试对 a 进行最大化，证明 2 HW <2 H<X ，、 2 H(X 人利用 2 H(X) 为有效的字母表大小这个 
概念对此进行解释。 

2.11 相关性的 度量。 设 A 与 X 2 同分布，但不一定独立。设 


~44" 


, H(X 2 |X, 
p=l ~ H(X,) 


( a ) 证明户 =1 ^^ 

(b) 证明 (Xpgl。 


互 
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( c ) 何时有 p = 0? 

( d ) 何时有 p = l ? 

2.12 联合熵的例子 。设 /»( u ) 由右表给出 
试 计算： 

( a ) H ( X ), H ( Y)o 

(b) H(x|y),H(y|x ) 0 

( c ) mm 。 

(d) H(Y)-H(y|x ) 0 

(e) JU ; Y)o 

( f ) 画出 （ a ) 〜 （ e ) 中所有 M 的文氏图 3 

2.13 不等式。证明对任意的 ar>0»l -^。 

2.14 和 的熵。 设随机变 ttX,y 的取值分别为 X! ，: r 2 ，…, X, 和 •，〜 sz = x+y 。 

( a ) 证明 H ( zix ) = H ( y | x ), 并讨论如果独立，则 my )< mz ) 及 h(xx 
H ( Z ) o 由此说明独立随机变最的和增加不确定度。 

( b ) 给出一个(必须是相关)随机变*例使得 H ( X )> H ( Z ) 且 H ( y )> H ( Z )。 

(c) 在什么条件下, H ( Z ) = H ( X ) + H ( y )? 

2.15 数据处理。 设&― X 2 — X 广 … — 依序构成马尔夫链，即设 

试将 /( X I ; X 2 , …， XJ 简化到最简单形式。 

2.16 瓶颈模型。 假定(非 f •稳) 马尔可夫链起始于”个状态中的一个，然后第二步受到限制，转 
移到 A 个状态之一 U <«), 第三步又放宽，转移到⑺个状态中的一个 （ m >々）。 于是有 
X !— X 2 -* X 3 , 即对任意的11,2,…， M |,* r 2 e |1，2,…， Al ，: r 3 e U ，2,."， m |， 有 

p(x i ,x 2 ,x i )= p(xi)p(x2\x { )p(xy\x2)o 

( a ) 试通过证明 /( X . jXjXlogitr 说明与 X 3 的相关程度受瓶颈作用的限制情况。 

( b ) 当々=丨时，计算 /( X 1； X 3 ), 并且得出 结论： 通过该瓶颈作用后入 ，和 X 3 不再具有相 
关性。 

2.17 纯随机性与倾向性 硬币。设 …人表 示独立地抛掷一枚倾 向性硬 币所产生的可能结果 
的随机变 M 。 于是，叫；(,=1|=/>,叫义,=0| = 1-户，其中/>未知。要从 XiA ， …， X ”中获 
得 均匀硬 币抛掷的序列 z 、， z 2 , …， z K ， 为此，设 io ， i |- (其中 lo，ir = I A, 0,1,00, 
01，… I 为所有有限长度的二元序列集合)表示映射 /( A , X 2 , …，; U =( A , z 2 , …， 厶>，其中 

Z, 〜 Bernoulli^), 而 K 的取值可能依赖于 (V ,X 2 , …, XJ 。 为了让 A,Z 2 ，…成为抛掷均匀 

硬币所产生的随机序列，从倾向性硬币拋掷到均匀硬币抛掷的映射/必须具有特定的性质，即 
在给定长度 A 时，所有 2* 个序列 Z *) 具有相同的概率(可能为0)，其中& = 1，2,…。 
例如，”=2时，映射 /(01) = 0，/(10) = l ,/(00) = /( ll ) = A (空串），則有 PrlZ ^ lIKsl 卜 

?^=0| 尺 =1|= 士。 请给出下列不等式成立的理由： 

nH(p) = H(X lt - 9 X n ) 

%H(Z l9 Z 2t -,Z Kl K) 
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* =H(K) + £(K) 

%EK 

因而在平均意义上，从，…， X „) 中得到的均匀硬币抛掷次数不会超过 nH ( p ) 0 举出长 
度为4的序列上的恰当的映射/。 

2.18 世界职业棒球锦标赛。 世界职业棒球锦标赛为7场系列赛制，只要其中一队廉得4场，比 
赛就结束。设随机变量 X 代表在棒球锦标赛中， A 队和 B 队较量的结果。例如， X 的取 
值可能为 AAAA ， BABABAB , BBBAAAA 。 设 Y 代表比赛的场数，取值范围为4〜7。假定 \jT 
A 队和 B 队是同等水平的，&每场比赛相互独立。试计算 H ( X )， H ( Y ), H ( YIX ) 及 
H(Xl Y ) 0 

2.19 无 穷熵。 此题说明离散型随 机变世 的熵可能是无穷的。设八= fuiog ^ r 1 。 （考虑到 

”2 

( arlo ^ orr 1 的积分为的一个上界，容易证明 A 是有限的。） 证明： 设 X 是由 Fr ( X = n ) 
WAdog ^ r 1 定义的整数值随机变最，其中 n =2,3, …，则 HU )= +00。 

2.20 游程编码。 设；^，义 2 ，…， (可能相关）均为二元随机变*。假定某人对此序列（按先后 
产生的次序)计算出游程 ( 尺…）。例如，序列 X = 0001100100产生游程为 R = 

(3, 2,2,1,2)。请你比较 mUz , …, XJ , H ( R ) 及 HU n , R ), 给出所有等式和不等式 
关系以及差别的 范围。 

2.21 概率的马尔可夫不等式 。设 p (： r ) 为槪率密度函数。证明对任意的有 

Prl />( X )< c /| log ^< H ( X ) (2-175) 

2.22 思路 的逻辑顺序。 在实际中， 常常 会由于某种溶要而有序地论述某些思路，然后，若有必 
要 就会对这些思路作进一步的推广。请重新给如下所述思路排列顺序，要求是强的排在 
前面，蕴含的紧随其后。 

( a ) /(&,...,尤 ； 10的链式法则， DCpUi , …， ，…， I "))的链式法则，以及 
h(x 丨， x 2 , …，; O 的链式法则。 

( b ) 0(/ || g ) X ); Jensen 不等式 J ( X ; y )>0。 

2.23 条件互信息。 考虑 n 个二元随机变量…，； C 组成的序列。如果含偶数个1的每个 
序列的概率为 2^”-^, 含奇数个1的每个序列的概率为0,试计算以下的互信息 

/( X 1 ; X 2 ),/( X 2 ; X 3 IX 1 ) f -,/( X n - 1 ; XjX 1 ,-, X n - 2 ) 

2.24 平均熵。设 H (/>)=- plog 2 户- （1 - 户 ) log 2 (l - />) 为二元摘函数。 

( a ) 利用 log 2 3々1.584, 计算 H ( l /4) 的值。（提 示： 可以考虑具有4种等可能结果的试验， 

其中某个结果比其他的更有趣。） [48] 

( b ) 当概率的值在范围内均勻选取，试计算平均熵 

( c ) (选做)试计算平均熵 mp lt p 29 p i ). 其中 （ p 〗， p 2 ，/> 3 ) 为均匀分布的概率向量。推广 
到 n 维情形。 

2.25 文 氏图。事 实上，不存在度量三个随机变量所共有的互信息 概念。 在这里，我们尝试给出 
一种 定义： 根据文氏图，三个随机变量 x ， y 和2的公共部分的互信息可定义为 

/( x ； y ； z ) = /( x ； y )-/( x ； y | z ) 
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尽管上述定义并不对称，其实这个量关于 x 、 y 和 z 是对称的。遗憾的是， /( x ; y ; z ) 不 
-定非负。试举例 x 、 y 和 z , 使得 /( x ； y ； zxo , 并证明以下两个恒 等式： 

( a ) /(x ； y ； z) = H(x,y,z)-H(x)-H(y)-H(z) + /(x ； y) + /(y ； z) + /(z ； x)o 

(b) /(x ； y ； z) = h(x, y,z)- h(x,y)-h( y,z)- rnz.x) + h(x) + h( y) + h(z) g 

第一个恒等式可类似的由熵和互信息的文氏图得到理解。第二个恒等式由第一个容 
易得到。 

2.26 相对熵非负性的另一个证明。为突出结论 D (/> || (?)>0的基本性，我们再给出另一个 
证明。 

( a ) 证明对任意的 0 < 1 <~，有 lnzgor - l 。 

(b) 判定下列 步骤： 

- D ( p \\ q ) = (2-176) 

(2-177) 

<0 着 (2-178) 

( c ) 等号成立的条件是什么？ 

4?] 2.27 燏的组合法則。设 ，…, AJ 为 m 个元素上的槪率分布(即 A 3, 且 &A = 1)。 定 

卜1 

义 m -1个元素上的新分布 qS A = / M , C ? 2 = p 2, …，〜 -2 = Pm -2 以及 〜-l = An-l + An (即 
分布 q 与 p 在集合 U ，2 , …， w -21 上是相同的， q 中最后一个元索的概率为 p 中最后两个 
元素的概率之和〉。证明 

( 2 - 179) 

2.28 混合使熵增加。证明槪率分布（仏，…， A , …， ft , …， AJ 的熵小于概率分布 
( Pi , ^4^,…，的墒。进一步证明更一般的 结论： 使概率分布更均匀 
的变换都使熵增加。 

2.29 不 等式。 设 x 、 y 和 Z 为联合随机变量。证明下面的不等式，并给出等号成立的条件。 

( a ) mX ， Yl 20> H ( X | Z )。 ’ 

(b) I(X 9 YiZ)>HX ； Z)o 

( c ) rnx, y,z) - H(x, y)<H(x,z) - h(x) 0 

(d) I(X ； Z\ Y)>I(Zi Y\X) - UZi Y) + I(X;Z)o 

2.30 最大焫。设 X 是取非负整数值的随机变量，对固定的值 A >0, 试求在约束条件 

oo 

EX = X] np ( n ) = A 

下使得熵 H ( X ) 达到最大时的概率密度函数/ >( x ), 并计算出 H ( X ) 的最大值。 

2.31 条件熵。在什么条件下有 H(Xl 
^( V )) = H ( X | y )? 

JO ] 2.32 费诺。设 ( X ， Y ) 的联合分布如 右表： 

设;? " OO 为 X 的估计量（基于 y )， 

P e = Pr | X ( Y )^ X|o 
( a ) 试求最小误差概率估计最 X ( y ) 与 
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相应的 P ，。 

( b ) 估计出该习题的费诺不等式，并与 ( a ) 中求得的值比较。 

2.33 费诺不等式。设？4久=1) = />,,丨 = 1,2，"、；《，且 Pi>Pi>P» m ， 那么 X 的最小 
误差概率估计量为 X = 1,此时产生的误差槪率为 P f =\-p Y o 试在约束条件1 - A =匕 
下最大化 H ( p ), 由此根据 H 求得尺的取值范围。这也是无条件的费诺不等式。 

2.34 初始条件熵。证明对任意的马尔可夫链 ， fKXoiXdM n 非减。 

2.35 相对熵是不对称的。设随机变量 X 有三个可能的结果 
U ，6, c |。 考虑该随机变量上的两个分布(右 表）： 

计算 H(p)M(q),D(p\\ q)mD(q\\ p) t 并验证在此情 
况下 D (/> IU ) 关 DUII /))。 

2.36 对称的相对熵。尽管如习题 2.35 所示，在一般情况下 
D(p\\ q)^D(q\\p), 但也存在使等号成立的分布。请 
举出二元字母表上的两个分布/>和 I 使得 D (/>11 9 )= 

D(q\\ p) (除平凡情形/ > = (? 外>。 

2.37 相对熵。设三个随机变 MX 、 y 和 Z 的联合槪率密度函数为 />(* rd , 2 )。 联合分布和边际 
分布乘积之间的相对熵为 

D(pU,y,z)\\ 幻） = (2-180) 

将上式用熵的形式展开。什么时候该相对熵为0? [5 T ] 

2.38 问题的值。设 X 〜 〆 : rh*r = l ,2, …， 给定一个集合 SQ 1丨，2,… ， m I 。是否当 X€S 
时，得到的答案为 

1如果 

V= 0如果 X 贫 S 

假定 PHX € S | = fl , 试求不确定度的缩减■: H ( X )- H ( X | V )。显然，给定 a , 任何集合 
S 的表现与其他的集合是一样的。 

2.39 熵与两两独立。设 X 、 Y 和2：为三个服从 Bemoulli (+) 的二元随机变跫，且两两相互独 
立，即 /( x ； y ) = /( x ； z ) = /( y 5 Z )=0 o 

( a ) 在上述约束条件 F , rnx ， y , z ) 的最小值是多少？ 

( b ) 举出达到这个最小值时的例子。 

2.40 离散熵 a 设； C 和 y 为两个独立且取整数值的随机变 S 。 设 X 在11,2,上均匀分布， 
Prly= 々 l=2'* = l,2,3 , …。 

( a ) 求 H ( X )。 

( b ) 求 WY)o 

( c ) 求 wx+ y , x - y)o 

2.41 随机问題。要判别随机目标 XI )。问题 Q 〜 r ((/) 关于 r ((7) 随机地提问，结果产生 
确定的答案八=八(:^(7)€14，《 2 ,...1。假定 X 和 Q 相互独立。于是 KX ; Q , A ) 为由问题 
-答案对 （ Q ， A ) 之后 X 剩 F 的不确定性。 

( a ) 证明 I(X；Q 9 A) = H(A\Q ) 9 并给予解释 n 

( b ) 现在假定有两个 i . i . d . 的问题提出，其答案分别为烏和八 2 。证明 

在此意义下，说明两个问题不比单个问题问 
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两次的效果更差。 

2.42 不等式。下列不等式在一般情况下是“>”、“=”还是“<”关系？请将每个不等式用“>”、 
“=”或“<”标出各自的正确关系。 

( a ) H (5 X ) 与 HU > 0 

( b ) 心与 / U ; y ) 0 

( c ) 与 mXolX -^ X^o 

52] (d) H(X,Y)/(H(X) + H(y))-^lo 

2.43 正面和反面的互信息。 

( a ) 考虑拋掷一枚均匀硬币。硬币出现正面和反面的互信息是多少？ 

( b ) 如果我们掷一颗有6面的均匀骰子，那么顶面和前面(经常面对你的那个 侧面〉 出现的 
互信息又是多少？ 

2.44 纯随机性。 假定用一枚具有三面的硬币来产生均匀硬币抛掷过程。设硬币 X 的概率密度 
函数为 

A , p A 
X = <B, p ti 
Pc 

其中/ > a 、 Pb 和 Pc 未知。 

( a ) 如何通过两个独立的拋掷和 X 2 产生(如果酊行)一个 Bernoulli 随机变 ft Z ? 

( b ) 生成的助大均匀二进制序列的数 fi 的期望数是多少？ 

2.45 有限熵。证 明：对 于离敗随机变 » X € ll ,2,".|, 如果 £ logX < oo , 则 H ( X )< oo 。 

2.46 熵 的公理化定义 (较 难）。 如果为度 M 信息而假定某些公理，将不得不使用如熵那 枰的对 
数度 ft 。 香农利用这点确保了熵的最初定义的合理性。在本书中，我们更多依赖于熵的 
其他性质而非公理化推导来确保它的使用价值。下面这个题比起本节的其他习题要困 
难多。 

若对称函数序列…， AJ 满足下列性质： 

• 标准化 : H 2 ( 如+) = 1， 

• 连 续性： H 2 (/>,1- P ) 为 P 的连续函数， 

• 组合法则： H m ( Pi , /> 2 , Pm) = H m ., ( P , + p ly ) + (/>! + Z >2 ) - 

M 点，点） 

证明必定具有如下 形式： 

m 

~5 f ] =- 1] A log A , ⑺ = 2,3, … （2-181) 

还有许多不同的公理化表示方式可以导出熵的相同定义。例如，可参见 Csiszdr 和 Kdmer 

[149] 0 . 

2.47 分类错误文件 的熵。一副扑克牌共有”张，顺序依次为1，2,…，”。现在从这副扑克中随 
机地抽出一张牌，然后再随机地将其放回。这样，熵为多少？ 

2.48 序列长度。 序列的长度含有序列内容的多少信息？假定考虑 Bernoulli ^) 过程 iX , l , 当 

第一个1出现时，过程停止。设 N 表示这个停时。因此，#为所有有限长的二元序列集 
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合 IO ， l |* = |0，1，00,01，10,11,000,".| 中的一个元素。 

( a ) 求 /(/ V ； X N )o 

( b ) 求 H ( X n | N )。 

( c ) 求 H ( X N )。 

现在考虑一个不同的停时。仍假定 X ,〜 Bernoulli 但过程在时刻 N = 6 停止的概率为 

■ J , 在时刻 N = 12停止的概率为 i 。 设该停时独立于序列… X 12 。 

( d ) 求 /( N ； X N )o 

( e ) 求 H ( X n | N )。 

⑴求 m ；^)。 

历史回顾 

熵的概念首先在热力学中引人，用于表述热力学第二定律。此后，统计力学告诉我们，在系 
统的某个宏观状态中，热力学熵与微观状态数目的对数之间存在着联系。此项研究工作归功于 
玻尔兹曼的伟大成就，他给出了方程式 S = 々 lnW , 该方程式作为墓志铭刻在了他的墓碑上 
[361] 0 

20世纪30年代， Hanley 在通信系统中引人了信息的对数度撤。这个度 撤本质 上是宇母表大 
小的对数。本章中熵与互信息的定义由香农 [472] 首先给出。相对熵概念由库尔贝克 （ Kullback ) 

和 Leibler [339] 首先定义，它有各种各样的命名，包括 Kullback - Leibler 距离、叉熵、信息散度、信 
息判别，在 Csiszdr [138] 和 Amari [22] 中其详细的论述。 [H 

这些煨的许多简单性质都是由香农发展起来的。费诺不等式的证明见 Fano [201]。 充分统计 
燉概念由费希尔 ( Fisher )[209】 定义，而最小充分统计量是由 Lehmann 和 Sch e ffc [350] 引入的。互 
信息与充分性关系的解释归功于 Kullback [335] 0 Brilkmi n [77] 和 Jaynes [294] 对信息论和热力学之 
间的关系给予了广泛的讨论。 

信息物理学是一门相当新型的学科，产生于统计力学、 该子力 学和信息论。讨论的关键问题 
是如何将信息表示物理化。 * 子信道容 tt (物理系统中可分辨的制备数量的对数） 和贵子 数据压 
缩 [299] 都是定义明确的问题，利用冯•诺伊曼熵获得了完美的解答。由于景子纠缠的存在，以及 
观察到的物理事件的边际分布与任何联合分布均不一致(没有局部的真实)这一结论(体现于贝尔 
( Bell ) 不等式）， 堪子 信息的研究有了新的课题。 Nielsen 和 Chuang 所著的基础文献 [395] 较为详 
尽地论述了 ft 子信息论，同时包含本书中的许多结论的量子形式。人们也试图确定在计算上是 
否存在着本质的物理限制，这些工作包括 Bennett [47] 以及 Bennett 与 Landaner [48]。 [IB 
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在信息论中，与大数定律类似的是渐近均分性 ( AEf ), 它是弱大数定律的直接结果。 大數定 
律针对独立同分布 ( Li . d .) 随机变*,当 n 很大时，12； X ,近似于期望值 EX 。 渐近均分性表明 

n i»» 

i log pT x x : x !, -, Ht 其中 …， X ” 为 m m9i^M,p(X lt X 2 r-,X n ) 

' 是观察序列 x If x 2 ,-, x n 出现的槪率。因而，当； 2 很大时，一个观察序列出现的概率 p(X Xt 
X 2 , …， X n ) 近似等于 2- 出 0 

这促使我们将全体序列组成的集合划分成两个子集，其一是典型集，其中样本熵近似于真实 
烯； 其二是非典型集，包含其余的序列。我们将主要关注典型集，这是因为任何基于典型序列的 
性质都是以商槪率成立的，并且决定着大样本的平均行为。 

首先举个例子。设随机变* X 6 10, II 的槪率密度函数为 p ( l ) = /> 和 〆 0)= (7。若 Xi , 

X 2 , …，;^为 i . i . d ., 且服从户（ X ),则序列，…， A 出现的概率为；比如，序列 

— 1 (1, 0,1, 1,0,1) 出现的概率是 p sx _9” _i：x . = p 、 2 。 很显然，并非所有长度为 n 的2” 个序列都具 
7 有相同的概率。 

5 lJ 然而，我们能够预測出实际观测到的序列的概率，即可以求出观测结果 X lt X 2 ,-, X M 的概 

率 … ， ; O, 其中 x it x 2 , …， X ”为 i.i.d 〜 />u )。 这是一个自引用的问题，但仍然是坷 
以明确定义的。显然，我们是在寻求服从同一概率分布的事件的概率，而结论是 …， 
X „) 将以高的概率接近于2•〜。 

对此，概括为“几乎一切事件都令人同等的意外。”换言之，当 X ,, X 2 ,-, X n ^7 i . i . d . 〜户 
• U ) 则 

Pr |( X lf X 2 ,-, X n )：/>( X lt X 2 ,-, X n ) = 2-" ( Hi <) l^l (3-1) 

在这个例子中，，…，•可以简单地说序列中1出现的个数近似等于 
71/)( 以很高的概率），且所有这样的序列(粗略地)有相同的槪率下面用概率论中的收敛 
槪念，其定义 如下： 

定义（随机 变量的 收敛）给定一个随机变撖序列…。序列…收敛于随机变 
ftx 有如下三种 情形： 

1. 如果对任意的 e >0, Pr || X n - X |>£|-0, 则称为依概丰收敛。 

2. 如果 £ U „-； O 2 -0, 则称为均方收敛。 

3. 如果 PrlUmpooX ^ XlM ， 则称为 以概车 1( 或 称几乎处处） 收敛。 

3.1 渐近均分性定理 

下面定理给出渐近均分性的公式描述。 

定理 3.1. UAEP ) 若 ：^，久 2 ,…，； ^为 i . i . d 〜 /> U )， 則 

-j i \ogp(X 1 ,X 29 - 9 X n )-*H(X ) 依概率 （3-2) 
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证明： 独立随机变量的函数依然是独立随机变*。因此，由于 X ,是 i . i . d ., 从而 log /)( X ,) 也 
是 i . i . d .。 因而，由弱大数定律， 


-丄…， X ”） = 一丄 s log /)( X f ) 


(3-3) 


—-£ log /> U ) 依概率 (3-4) 

= H ( X ) (3-5) 

这就证明了该定理。 □ _ 

定义关于 /> U ) 的典型集 A 卜 （typical set ) 是序列 UhA ，…，〜）€々的集合，且满足性 
质： 

2 -»(H(x) + *) <p(xi >x j <2 •- (H<x) - r) (3-6) 

作为渐近均分性的一个推论，可以证明典型集 Af 有如下 性质： 

定理 3.1.2 

1. 如果 (* r l ， j ： 2 , …， • OGAi ”)， 則 H ( X )-€<-^ log />( xi ， x 2# — + e 0 

2 . 当 n 充分大时， PrUl n ) |> l-eo 

3. | Ai n ) K 2" (H(x> + ,) , 其中 IAI 表示集合 A 中的元素个数。 

4•当 n 充分大时， | Ap ) l>(l - 

由此可知，典型集的概率近似为1,典型集中的所有元索几乎是等可能的，且典型集的元索 
个数近似等于2#。 

证明： 性质 （1) 的证明可直接由的定义得到。第二个性质由定理 3.1.1 直接得到，这是 
由于当时，寧件(：^,久 2 ,…,; U 6 A ” 的槪率趋于1。于是，对任意占>0,存在 ” 0 ,使得 
当时，有 

Fr || -^ p ( X li X 29 -, X n )- H ( X )\< t \> i-S (3-7) 

令占 = e , 即可得到定理的第二个性质。取 6 = e 便于以后简化符号。 

为证明性质(3)，我们有 \ 

1 = SMx ) . . (3-8) 

«€ A - 

^ EMx ) " (3-9) 


(3-6) 


(3-7) 


(3-8) 


(3-9) 


^ E 2 


-n(H(X)+f) 


其中第二个不等式由式 (3-6) 得到。因此 

| a ( b )| <2 „( hu ) + «) 

最后，当 n 充分大时， PriA ^ Ol - c . 所以 

1-e <PrlA^M 

< S 2- b(h(x) " c) 


\ A [ n) \ 


(3-10) 

(3-11) 


(3-12) 


(3-13) 

(3-14) 


(3-15) 


其中第二个不等式由式 (3-6) 得到 D 因此， 

lA^IXl - e)2”_ 卜 ‘ 


~59" 


(3-16) 



□ 


至此完成对 A ^ n ) 的性质证明。 


3.2 AEP 的推 论：数 据压缩 

设…成为服从槪率密度函数/ >( X ) 的 i . i . d 随机变量。为获取这些随机变 M 序列的 
简短描述，将义”中的所有序列划分成两个 集合： 典型集及其补集，如图 3-1 所示。 



RI 3-1 典喷集与信源编朽 

将每个集合中的所有元素按某种顺序（比如字典序）排列。然后给集合中的序列指定下标可 
以表示中的每个序列。由于八卜中的序列个数<2”⑴ ♦*>, 则这些 K 标不超过 n ( H + e ) + l 
比特外的1比特是由于 WH + e ) 可能是非整 数）。 在所有这些序列的前面加0,表示 Al ”> 
中的每个序列 需要的 总长度 <”（H + e ) + 2 比特（如阁 3-2 所示）。类似地，对不 W 于的每 
个序列给出下标，所需的位数不超过 nloglA^I + 1比特。再在这些序列前加1，就获得了关于％” 
中所有序列的-个编码方案。 



注意，上述编码方案有如下 特征： 

• 编码是 1-1 的，且易于译码。起始位作为标识位，标明紧随码字的长度。 

• 对非典型集 A ) 吖的元素作了枚举，没有考虑中的元素个数实际上少于义”中元素 

个数。而让人惊讶的是，这足以产生一个有效的描述。 

• 典型序列具有较短的描述长度 & i 
下面用记号： r ” 表示序列…，〜。设 /( x ”） 表示 相应于/的码字长度。若”充分大， 

使得 PrlA (•” 于是，码字长度的数学期望为 ‘'‘ 
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EiKX^)) = 2/>(^ n )/(x") (3-17) [H 


=S/>(x")/(x") + S p(x n )iu n ) (3-18) 

< 'ZpU h Hti(H+e) + 2) 

W 

+ E / >(x-)(r2iog|^|+2) (3-19) 

= Pr|Al- > |(n(H + e)+2) + Pr|A c ( " ) ， |(nlog|A / | +2) (3-20) 

<n(H+e) + en(Iog|^|) + 2 (3-21) 

= n(H+e ， ) (3-22) 


其中 e^e + elogl^l +-^, 适当选取 e 和 n 时， ，可 以任意小。至此，我们已经证明了如下的 
定理。 ^ 

定理 3.2.1 设； T 为服从 />(: r ) 的 i . i.d 序列， e >0, 則存在一个编码将长度为71的序列X”映 
射为比特串，使得映射是 1-1 的（因而可逆）， 且对于充分大的 n , 有 

E [^-/( X ")]< H ( X ) + e (3-23) 

因而从平均意义上，用 / zHU ) 比特可表示序列 X "。 


3.3 高概率集与典型集 

由的定义，易知/\!”>是包含大多数概率的小集合。但从定义看，并不清楚它是否这类 
集合中的 fi 小集&下面证明典型集在一阶指数意义下与最小集有相同的元索个数。 

定义对每个 n = l ,2, …，设 BWCAr ■为满足如下条件的最小集，即 

PT \ B ( 8 n) \>\-S (3-24) ^ 

我们将讨论与 A 卜的交集充分大，使其含有足够多的元素。在习题 3.3.11 中，我们给出了 
下面定理的证明 思路： 

定理 3.3.1 设 X !， X 2 , -, X n 为服从 /> U ) 的 i.i.d 序列。对 j 及任意的^>0,如果 
Pr|BpM>l — 占 ，则 

Mog \ B ( 8 tl ) \> H -8 , 对于充分大的 n (3-25) 

因此在一阶指数意义下，至少含有2出个元素。而 A 卜 大约有 2” ( Ht <> f 元素。所以， 

的大小差不多与最小的高概率集是相同的。 

下面引人一个新记号以表示一阶指数意义下的相等概念。 

定义记号表示 

lim 丄 log^^O (3-26) 

»-*» n o „ 

因此 乂 表明 a 与 b ” 在一阶指数意义下是相等的 3 
由此可将上述结果重 述为： 如果和则 

(3-27) 

讎 着 

为说明 A 卜与的之间的区别，考虑一个伯努利序列 X.,X 2 ,-, X n , 其参数/ > = 0.9 




请举出一个随机变《，使+等式中的等号成立。 

( b ) (切比雪夫不等式) 设随机变 tt Y 的均值与方差分别为户和 J 2 。 设 X = (Y — 户) 2 , i 
对任意的 e >0, 

Prl|y-/il>6l<^ . ( 3 - 

( c ) (弱大数定律)设 …， 乙为 i . i . d . 随机变 M 序列，其均值和方差分别为户和 
令之=丄 i ; 乙为样本均值。证明 


( 3 - 33 ) 
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因此，当时， PH !^-/ i |> el - K )。 这就是著名的 弱大数定律。 

3.2 AEP 与互信息。 设 （ X ,， y ,) 为 i . Ld 〜/ >( i ，： y )。 假设 X 和 y 独立与假设 X 和 Y 相关的对数 
似然比。求 

1 , p(X n )p(Y n ) 


的极限。 

3.3 一块蛋糕。 蛋糕被粗糙地切成两块，每次留下大的那块继续切，同时拋弃小的那块。假定 
随机切割产生的两块的大小比例为 


( ii ) 槪率为* 

(音，音）槪率为 I 


例如，第一次切割(并选取大的那一块)的可能结果是留下的这块蛋糕大小为原先的 I ■。对 
这块蛋糕继续切成两半并选取大的那一块，则第二次留下的那块蛋糕大小可能缩小至原来 


3.4 


的(音)(|)。在一阶指数意义下，蛋 糕被” 次切割后将缩小至多大？ 

AEP 。 设 X ,为 i . i . d — = 以及 H = - 设 

丄 2尽1 




-\ogp(x n )-H <€ 丨 ， ir = 
n 






( a ) PrlX ^/ Tl-M 吗？ 

( b ) PriX ^ A ” 门 ZTl — 1 吗？ 

( c ) 证明: 对任意的 « JA " nB "!<2 - (H4<, o 


( d ) 证明： 当 n 充分大时， 

3.5 由概率定义的集合。 设 X | t X 2 , …为 i . i . d . 离散随机变*序列，熵为 H ( X ) o 设 

c, ⑴ =u"ei” : pu")wM 

表示概率 w 的所有《长序列构成的子集。 

( a ) 证明 | C „( f ) l <2' 

( b ) 当 f 为何值时，有 P ( lX "€ C n ( f ) l )^ l ? 

3.6 类似于 AEP 的极限。 设为 i . i . d 序列旦服从概率密度函数 PU )。 试求 

3.7 AEP 与信源编码。 一个离散无 《 T 忆信源发送二元数字序列，其中所有数字相互独立乱 
/,( l ) = 0.005,/>(0) = 0.995 o 假设每次发送100位，对每1⑻位至多含3个1的每个序列进 
行二元编码。 

( a ) 假定所有码字的长度相等，试求 ft 短长度使得能够为至多包含3个1的所有序列提供 
码字。 

( b ) 试计算观察到一个无码字匹配的信源序列的槪率。 

( c ) 利用切比雪夫不等式，求观测到一个无码字匹配信源序列的概率的取值范围。并将这 
个范围与 ( b ) 中计算得到的实际概率做比较。 


3.8 乘积。设 


[65] 


1，槪率为 f 


~66 


互 


X =^2, 槪率为+ 

3,概率为 f 

设；^，久 2 ,…为服从上述分布的 i . i . d 序列。请找出如下乘积的极限行为 

(X { X 2 - x n )i 

3.9 AEP 。 设； ，…为独立同分布随机变 M 序列，服从概率密度函数 p ( o ：)， xG | l ,2,-, 

wlo 于是， MjpQ ， …，工”）=11 p ( x .) o 已知- ■^■ log />( X 1 ， X 2 , …， — f /( X )( 依概 

1-1 n 

率）。设(?(々，: r 2 ，…, : r „)= fhu ) ,其中 (7 是11,2,…， ml 上的另一个概率密度函数。 

• »! 

( a ) 计算 lim - ^- logg ( X | , X n ), 其中 X ,， X 2 , …为服从 p (: r ) 的 i . i.d 序列。 

( b ) 计算对数似然比士 log 象::：: 的 极限， 其中\,欠 2 ,…为服从 pU ) 的 i . i.d 

序列。由此说明当 p 为真实分布时，偏 好&布 g 的优势将以指数衰减。 

3.10 随机盒子尺寸。考虑一个边长分别为的;2维矩形盒子，其体积为 

= fl X ,。与该随机盒子体积相同的”维立方体的边长为/=穴/”。设 U 2 , …为服从 
<•1 

单位区间[0, 1] 上的均匀分布的 i . i . d . 随机变贵。试求，把\/ 1 ! / ”并与（£^) 1/ ”比较。显 
然，取期望后的边长没有准确反映出随机盒子体积的原:^。几何平均而非算术平均刻画 
出了乘积的行为。 

3.11 定理 3.3.1 的证明。此题说明 M 小的“可能”集合的数 B 大约为2#。设为 

服从 /> U ) 的 i . i . d 序列，使得并固定€<女0 

( a ) 给定任意两个集合 A 和 B ， 使得 PrM )> 卜 €1 和卩 1 ^)> 1 -£ 2 ,证明 PrMHB )〉 
l - ei - e 2 。 因此，可得 

( b ) 验证如下不等式链中的每一步 

l - e - S ^ FriA ^ OB ^) (3-34) 

= E P(x n ) (3-35) 

< E r” ㈣ (3-36) 

= | A ^ ) nBi " ) l 2'" (H - e) (3-37) 

<!ij (n)| 2 -n(H-«) (3-38) 

( c ) 完成定理的证明。 

3.12 经验分布的单调收敛性。设 Xi ， X 2 , …，为 i . i . d . 〜 /> U )， x 6 Y ， 记 A 为相应的经验 
概率密度函数。具体讲， 

九 (X) = 士 2 KX, = X) 

71 .= 1 

为前 M 个样本中出现 X , = x 次数的比例，其中/为示性函数。 
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( a ) 证明对二元字母表 V ，有 

ED(p 2n I! p)<ED(p„ || p) 

由此说明，从经验分布到真实分布的相对熵“距离”的数学期望随样本量增大而递减。 



(提示：将 写为音 A + 并利用 D 的凸性。 〉 

( b ) 证明对于任意的离散字母表 AT , 有 


EDCPn \\ p)<ED{p n . x \\ P) 

(提 示：将 《个样本中的每个样本依次删去，由此得到 n 个经验密度函数，再考虑将 
K 写成这 Z 2 个经验密度函数的平均。） 

典型集的计算。 为清楚理解典型集 A 卜和最小高槪率集的概念，我们用一个简单的 
例子来说明。考虑 i.i.d. 的二值随机变#序列 X lt X 2t - % X nt 其中 X, = l 的概率为 0.6 
(因此 X , =0 的概率为0.4)。 


( a ) 计算 H ( X ) 0 

( b ) 如果 W =25 和 e = 0.1, 哪些序列落入典型集 A 卜中？典型集的概率为多大？典型集 
中有多少个元素？（这涉及一个附表，其给出所有 々个 1(0<4<25)的序列的概率，以 
及找出这些序列中有哪些臈于典型 集。） 

( c ) 在概率为 0.9 的最小集中含有多少个元素？ 

( d ) ( b ) 与 （ c ) 中所述集合的交含有多少个元素？这个交集的槪率为多大？ 
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18 
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25 
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783763 
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736966 
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第 3 章 


历史回顾 

渐近均分性 ( AEP ) 首先是由香农在1948年的开创性论文 [472] 中进行了论述，他针对 i . i . d . 
过程的结果给予了证明，并且讨论了平稳遍历过程的结果。 McMiUan [384] 和1知6_[74]证明了 
遍历有限字母表上的信源的 AEP 。 该结论现在称为 AEP 或兑 annon - McMillan - Brciman 定理。 
Chung [101] 将定理推广到可数字母表情形，而 Moy [392], Perez [418] 和 Kieffc r [312] 证明了当 
IX , .1 连续取值且遍历时的 A 收敛性。 Banon [34] 和 Orey [402] 证明了实值遍历过程的几乎处处收 
® 敛性； 在 16.8 节中将利用简单的三明治方法 ( Algoet 和 Cx ) v er [20]) 证明一般的 AEPo 



第 4 章随机过程的熵率 


第3章中的渐近均分性质表明在平均意义下使用 nH ( X ) 比特足以描述 n 个独立同分布的随 
机变 M 。 但是，如果随机变*不独立，尤其是随机变量成为平稳过程时，情况又如何呢？我们将 
证明，正如 i . i . d . 情形，熵…，; C „) 随 n 以速率(渐 近地〉 线性增加，这个速率称 
为过程的 熵率。 至于为什么可以解释为最佳的可达数据压缩，待到第5 章 中再作分析。 

4.1 马尔可夫链 


随机过程 IX , 1是一个带下标的随机变 M 序列。一般允许随机变最间具有任意的相关性。刻 
画一个过程需要知道所有有限的联合概率密度函数 

Pr |( < X 1 ， X 2 ，..， X lf ) = ( j *|， i 2 ,...， j ：”>| = p ( jr ,, x 2 , —* x n ) 

其中 （ a :】 9 x 2 f - m ^ x „)^： X n ,n = 1 ,2,…。 

定义如果随机变贵序列的任何有限子集的联合分布关于时间下标的位移不变，即对于每 
个 W 和位移“以及任意的 a - l , x 2> -, x (l €^. 均满足 

PrlX , = x l 9 X 2 = x 2 f — fX n = x n \ 

~ Prl X]♦/ = Xj , X 2 ♦/ = xi , *X„4/ = x n I (4-1) 

则称该随机过程是平 穗的。 

一个非独立随机过程的简单例子是随机序列中的每个随机变 M 仅依赖于它的前一个随机变 
M , 而 条件独 立于其他前面的所有随机变这样的过程称为马尔可夫过程。 

定义如果对 n = 1,2,…，及所有的 xi , x 2 , — , x lt €^, ^ 

P r (X„ + i = x„ + | |X B = j n ,X f ,-i = x B - 1 ," , ,X| = X|) 

= Pr ( X n . 1 = x n .,| X >I = x >l ) (4-2) 

则称离散随机过程 …为马尔可夫链或马尔可夫过程。 

. 此时，随机变量的联合概率密度函数可以写为 

/… x ”）= /> Uj )/>( < r 2 Ui )/> U 3 la : 2 h ../ iU > l l < r ll - i ) (4-3> 

定义如果条件槪率/>(士 + 1 |心）不依赖于71，即对；1 = 1,2,“•，有 

FrlX w + 1 = 6| X n = al = Fr | X 2 =6| X 1 = a | 对任意 A * (4-4) 

则称马尔可夫链是 时间不变的。 

若无特别声明，总假定马尔可夫链是时间不变的。 

如果 IX , I 为马尔可夫链，则称 为 / i 时刻的 状态。 一个时间不变的马尔珥夫链完全由其初 
始状态和概率转移矩阵尸=[/^]所表征，其中 

若马尔可夫链可以从任意状态经过有限步转移到另一任意状态，且其转移概率为正，则称此 
马尔可夫链 是不可约的。 如果从一个状态转移到它自身的不同路径长度的最大公因子为 1， 则称 
马尔可夫链 是非周期的。 

如果在时刻 n , 随机变量的概率密度函数为/ >( xj , 那么在 《 + 1 时刻，随机变最的概率密 
度函数为 


70 

\ 

71 



( 4 - 5 ) 


/>(x n+1 ) = ^2p(x„)P XIai 

[ HI 若在 72 + 1 时刻，状态空间上的分布与在 72 时刻 ^ 分布相同，则称此分布 为平稳分布。 如果马尔 
可夫链的初始状态服从平稳分布，那么该马尔可夫链为平稳过程，这也正是平稳分布的称谓由 
来。 

若有限状态马尔可夫链是不可约的和非周期的，则它的平稳分布惟一，从任意的初始分布出 
发，当 《 — oo 时，的分布必趋向于此平稳分布。 

例4 . 1 . 1考虑两状态的一个马尔可夫链，其槪率转移矩阵为 

p = 

如图 4-1 所示。 


a 


(4-6) 



图 4-1 两状态的马尔可夫链 

设向 tt p 表示平稳分布，其分 ft 分别为状态丨和状态2的槪率。通过解方程 /zP = /i 即可求 
得平稳概率，或更简便地，利用平衡概率的方法求得。对于平稳分布，穿越状态转移图中任意割 
集的网络概率流必为0。将此结论应用于图 4-1, 即可得 

/ijo = fxiP (4-7) 

由于 A + 则平稳分布为 

( 4 - 8) 

[~73~1如果该马尔可夫链的初始状态服从平稳分布，则导出的过程是平稳的 。在” 时刻的状态的熵 
为 

H(X ”) = H (o~5 ， A) (4 ' 9) 

然而，这并非熵…，的增长速率。由于 X ,之间存在着相关性，要将问题说清楚， 
还需费一番功夫。 

4.2 熵率 

如果给定一个长度为”的随机变量序列，我们自然 会问： 该序列的 熵随” 如何增长？下面 
定义这个增长率，我们称为熵率。 

定义当如下极限存在时，随机过程 IX , I 的熵率定义为 

H (^) = lim 丄 H ( X ,, X 2 ,-, X n ) (4-10) 

n 

下面考虑几个简单的随机过程例子及其相应的熵率： > 

1. 打字机。假定一台打字机可输出 m 个等可能的字母。由此打字机可产生长度为《的⑺” 
个序列，并且都等可能出现。因此， mU 2 , …，； U = lpgm ”， 熵率为 H (^) = \ogm 比特序 
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符 


2. i . i . d . 随机变量序列 X ,, X 2> 


此时，有 


n n 

这正是我们所期望的每字符的熵率。 

3. 独立但非同分布的随机变量序列 c 在此情形下，有 

m 

H(X lt X 29 -,X n ) - 1]H(X ( ) 


) 


(4-11) 


(4-12) 


A 


4 


(4-13) 


但 H ( X ,) 不全相等。我们可以选择 X lt X 2 , …的一个分布序列，使的极限不存 
在。例如取二值随机分布序列，其中 A = P ( X , = 1) 不是常数，而为 f 的函数。通过细心选取 A 
可使得式 (4-10) 的极限不存在。例如，对々=0,1,2…，取 

.5 2 Kloglog /<2 务+ 1 

2々 + l < bglog /<2 务+2 
此时，该序列的情况是，满足 H ( X ,) = 1 的随机变最序列（可以任意长）之后，紧接着是更长 
以指数变化的序列满足) = 0。所以， H ( X ,) 的累积平均值将在0与1之间振荡，从而不存 
在极限。因此，该过程的 H ( AO 无定义。 

我们也可以定义熵率的一个相关的《(如果下列极限存在 h 

H / ( A , )= limH ( X ll IX lt - l , X n -2.-. X 1 ) (4-14) 

和 f /'( Y ) 这两个位反映了士率概念的两个不同方面。第一个》指的是 n 个随机变饿 
的每字符熵，而第二个 tt 指在已知前面随机变 ft 的情况下最后一个随机变 M 的条件熵。下 
面我们证明一个*要结论，即对于平稳过程，以上两者的极限均存在且相等。 

定理 4.2.1 对于平穗随机过程，式 (4-10) 和式 (4-14) 中的极限均存在且 相等： 

H ⑷ = (4-15) 

我们先来证明 limHUJXd ，…, D 存在。 

定理 4.2.2 对于平稳随机过程， HUjXd ，…， &) 随 ri 递减且存在极 f 艮 H '( AO 。 

证明： 

H (. X ^ l \ X i , X 2 t - t X n XH ( X n , l \ X nt -, X 2 ) (4-16) 

，…， D (4-17) 

其中的不等式由条件作用使墒减小这个性质得到，而等式由该过程的平稳性得到。由于 

，…， D 是非负且递减的数列，故其极限 fm ) 存在。 □ 

接下来使用数学分析中的一个如下简单结论。 

定理 4.2.3 (Cesdro 均值〉若 a n -* a , 且 b n = 士 ^ ,則 b „~^ a 0 

证明 ：（ 非正式思路）由于序列 U * l 中的大部分项最终趋于 a , 那么，是的前”项的平 
均，也将最终趋于 a 。 

正式证明：设 e >0。 由于则存在 N ( e ), 使得对任意的 n > N ( e )， 有丨〜 - a |< e D 
因此，对任意的 n > NU ), 有 

I fli = I 士一 a 


(4-18) 


< 士 2 - a〉l 
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(4-19) 



(4-20) 



< +e (4-21) 

当时，上面的第一项趋于 0, 故选取充分大的使得 |6„- a |<2 e 。 因此，当~时， 

b n —a 0 □ 

定理 4.2.1 的证明 .•由 链式法则 

H(X| ， y， X ”) = 1 (4-22) 

w ft 

也就是说，熵率为条件熵的时间平均。然而，我们已经知道条件熵趋于极限 H ', 因此，由定理 
4.2.3 可知，条件熵的累积平均存在极限，艮此极限就是其通项的极限 H '。 于是，由定理 4.2.2, 

n 

P 76 ] =H’(A*) (4-23 )口 

研究随机过程熵率的重要意义体现在平稳遍历过程的 AEP 。 在 16.8 节中，我们将证明更一 
般的 AEP , 即对任意的遍历过程， 

- ■MogpUpXh … ， ; O—HCV) (4-24) 

n 

以概率1收敛。由此，第3章中的所有定理可容易地推广到一般的平稳遍历过程。与第3章中的 
i . i . d . 情形类似，我们可定义典型集，并采用同样的讨论方法，可以证明典型集的概率近似为1，且大 
约有 2 nH ( M 个长度为„的典铟序列，其每个序列出现的槪率大约为2~洲 心。 所以，大约使用 nH ( X ) 
比特可表示长度为”的典切序列。这体现出熵率可以表征平稳遍历过程的平均描述长度的重要意义。 


对任何平稳过程，熵率均有恰当的定义。而对于马尔可夫链，计算熵率尤为容易。 

马尔可夫链对于平稳的马尔可夫链，熵率为 

H(Ar) = H ， (^) = limH(XjX n - I ,-,X 1 ) = iimH(XjX n . l ) 

= H(X 2 |X,) (4-25) 

其中的条件熵可根据给出的乎稳分布计算得到。注意到，平稳分布^为下列方程组 的解： 

^ 对任意的） (4-26) 

我们将需要计算的条件熵详细论述在下面 iw 定理中。 

定理 4.2.4 设 IX,! 为平稳马尔可夫链，其平稳分布为 P ， 转移矩阵为 P 。 則燏芈为 

H(^) =- (4-27) 

9 

jt ] 证明： h ( X ) = h ( x 2 i x ,) = 2 //,(D - pmp v )o □ 

例 4.2.U 两状态的马尔可 夫链） 如图 4-1 所示的两状态马尔可夫链的熵率为 

H(X)= H(X 2 |X l )= fl -^ H(a) +^H(/?) (4-28) 


注释若马尔可夫链是不可约的且非周期的，那么该马尔可夫链存在状态空间上的惟一平 
稳分布，并且给定任意的初始分布，当时，分布必趋向于此平稳分布。由于熵率是依据序 
列的长期行为定义的，那么在此情形下，即使初始分布不是平稳分布，熵率也如式 (4-25) 和式 
(4-27) 中给出的 H ( AT )。 

4.3 例子：加权图上随机游动的熵率 

作为随机过程的一个例子，考虑一个连通图（图心 2) 上的随机游动。假定该图有 w 个标记 
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为 11, 2, …， ml 的节点，其中连接节点 f 和）的边权重为 W y >0 。 假定此图是无向的，即％ = 
%。若节点 f 和_;没有连接边，则设 W^Oo 

有一个粒子在图中由一个节点到另一个节点作随机游动。设 
随机游动 1 XJ ， X „€ U ，2, …， W | 为图的一个顶点序列。 若 X "= 

/,那么下一个顶点）只可能是与节点/相连的所有节点中的一 
个，且转移概率为连接；和）的边权重所占所有与丨相连的边的 

权重之和的比例。因此，匕 = o 

对此情形，平稳分布有一个非常单的形式。我们将猜测并 
给了，验证。将此马尔可夫链的平稳分布设定为节点/的槪率是连 
接 * •的各边权重总和占图中所有的边权重总和的比例。设 

W, = (4-29) 

为连接节点 《• 的所有的边权重总再设 

为图中所有的边权重总和，则 Dw, = 2VV 。 

现在我们猜测平稳分布为 



(4-31) 

通过检验可证实上述分布确 为甲稳 分布。此时有 


= 2^^； 

(4-32) 

= s 

(4-33) 

• 2 W 

(4-34) 


(4-35) 

因此，状态的平稳概率为连接节点/的各边权重总和占所有的 边权重 总和的比例。此平稳分布 
有个很有趣的局部 性质： 它仅依赖于总权重以及与该节点相连的所有的边权重之和，因而若改变 

图中某些部分的权重，但保持总权重为常数，平稳分布不会有所改变。 

通过计算，熵率为 

H(X) = H{X 2 \X x ) 

(4-36) 

=- SaXoa 

f i 

(4-37) 

=-E 為芩货 k 货 

(4-38) 

=- 

(4-39) 


(4-40) 

(…㈣ ，…) -H (…， 2 灰，…） 

(4-41) 


如果所有的边有相同的权重，则平稳分布可设置成在节点 :• 上为£,々£，其中£,表示连接 
节点:•的边数，£表示该图的边的总数。此时，随机游动的熵率为 
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Hm = log (2£)- H (舂，簦,…為） (4-42) 

熵率的这个答案是如此的简洁以致令人颇为费解。显然，这个熵率是平均转移熵，仅依赖于 
平稳分布的熵与边的总数。 

例 4.3.1( 棋盘上的随机 游动）假定一个“王”在 8 X 8 的（国际象棋）棋盘上作随机游动。 
“王”这个棋子在棋盘内部时可有8个移位，在边缘时有5个移位，在角落时有3个移位。据此及 

前面所述结论可知，平稳概率分别是&和从而，熵率为 0.92 log 8。 因子 0.92 是由于 

边缘效应产 生的； 如果这个棋子在无限的棋盘上游动，则可得其熵率为 logS 。 

类似地，可以求得“车”(它的熵率为 logl 4 比特，因为“车”总是有14个可能的移位）、“相”及 
“王后”的熵率。“王后”的可能移位恰是“车”和“相”的可能移位的合成，那么“王后”比起“车”和 
“相”，拥有更多还是更少的自由度呢？ 

注释 易知图上的平稳随机游动是 时间可逆的， 即是说任何状态序列向前和向后的概率是 
相等的： 

Pr ( X , = x , f X 2 = X2 ，—» X n = x n ) 

= Pr ( X n - xi ， X n .i = x 2 r- ,Xi = x n ) (4-43) 

出乎意料的是，反命题亦成立，即任何时间可逆的马尔可夫链均可以表示为某个无向加权图上的 
随机游动。 


4.4 热力学第二定律 


热力学第二定律是物理学中的基本定律之一，表明孤立系统的熵总是不减的。现在我们来 
阐述该定律与本章前面已定义的熵函数之间的联系。 

在统计热力学中，熵通常定义为物理系统的微观状态数的对数值。如果所有的状态都是等 
珥能发生的，就恰好与我们这里的熵概念一致。但为何熵总是增加呢？ 

现在我们建立模型，将孤立系统视为一个马尔可夫链，其中状态的转移规律由控制该系统的 
物理定律所决定。此假设是针对系统的所有状态的，并且，如果知道现在状态，系统的将来是独 
立于系统过去的。对于这样的系统，我们可以获得关于第二定律的4种不同解释。当发现熵并不 
总是增加时，或许会让人震惊，然而相对熵总是减少的。 

1. 相对熵 D (〜 || 〜'） 随 r * 递戒 。设〜 和为”时刻的马尔可夫链状态空间上的两个概 
率分布，而 /^ + 1 和〜 + 1 是时刻 M + 1 时的相应分布。令对应的联合概率密度分别记为 P 和7。于 
是 

其中 r (.|.) 表示马尔可夫链的概率转移函数。由相对熵的链式法则，可得两种展 开式： 
D(p(x n9 x n ^) II q(x n ,x n ^)) = D(,p(x„) II q(x n )) 

+ D (/>( < r ” + 1 U”）II 9 ( x ntl lx w )) 

= D(p(x n ^i) II g(x n + i)) 

+ D (/ >( x ft | x n + i ) II q ( x n \ x n ^ i )) 

由于/>和(？由该马尔可夫链推导而来，所以条件概率密度函数和都等于 
r ( x n + I U n ) o 于是 D (/» U ” + 1 UJ || q(x n ^\x n )) = 0 o 此时，利用 D(p(x n \x n + l ) || q(x n \ 
4 + 1 ))的非负性（由定理 2.6.3 的推论），可得 

D ( p ( x n )\\ qU n ))> D ( P U n . x )\\ qUn ^)) (4-44) 
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或 

D(,i n || ^J>D(^ + I || ^ n + I ) (4-45) 

因此，对于任何马尔可夫链，两个概率密度函数间的距离随时间 n 递减。 

现在用一个例子形象地解释上述不等式。假定加拿大和英格兰对于财产重新分配都采用相 
同的税收体系。设&和分别代表两个国家的私人财产分布，那么由上述不等式表明，这两个 
分布之间的相对熵距离将随时间而递减。加拿大和英格兰的财产分布情况将愈来愈相似。 

2. 在 n 时刻状态空间上的 分布仏 与平稳分布 /i 之间的相对熵 D(n || / i ) 随 71 递减。 在式 
(4-45) 中，是 rz 时刻状态空间上的分布。 若设仏 '是任意平稳分布那么下一时刻的分布 

丨也为 / i 0 因而， 

D(/i” II /ii)^D(/2 n + i II fi) (4-46) 

上式表明，随着时间的流逝，状态分布将会愈来愈接近于每个平稳分布。序列 D(n || 户）为 
单调下降的非负序列，其极限必定存在。如果平稳分布是惟一的，则极限为0,但证明这一点并 
不容易。 

3. 若平穗分布是均勾分布，則熵增加。 一般来说，相对熵减小并不表示熵增加。具有非均 

匀的平稳分布的马尔可夫链就是一个简单的反例。如果马尔可夫链的初始状态服从均匀分布， [82 
即已经是最大熵分布，那么这个均匀分布将趋向于该平稳分布，此平稳分布的熵必定低于均匀分 
布的熵。因而，熵随*时间而减少。 

然而，如果平稳分布是均匀分布，则可将相对熵表示为 

D (〜 ll / i ) = logl ^|- H (^) = log |^| - H ( X n ) (4-47) 

此时，相对熵的单调递减蕴含了熵的单增性。这个解释与统计热力学联系最紧密，其中所有 
微观状态都是等可能发生的。现在来刻画具有均匀平稳分布的过程。 

定义若概率转移矩阵 [ i \], 其中满足 

IX = = 1.2,- 

和 

1]P,> = 1J = 1,2,… 

则称为双随机的。 

注释均匀分布是 P 的平稳分布当且仅当槪率转移矩阵是双随机的(见习题4.1)。 

4. 对于平穗的马尔可夫过程，条件熵 HdlX ,) 随； I 递增。 如果马尔可夫过程是平 稳的， 

则为常数 3 因而，熵总是非增的。然而，我们将证明条件熵只(尤^)随；2递增。于是， 

未来状态的条件不确定性是递增的。对于此结论，我们给出两种证明方法。第一种证明，利用熵 


的性质 

H ( XJ X x )> H { X n IX ,, X 2 ) (条件作用使熵减小） （4-50) 

= H ( XJX 2 ) (由马尔珥夫性） （4-51) 

= H ( X n ., lX 1 ) (由平稳性） (4-52) 

另一种方法是将数据处理不等式应用于马尔可夫链则有 

/( X 1； X nM )^/( X 1； X n ) (4-53) 

再将互信息以熵的形式展开，可得 

- H ( X n \ X ,) (4-54) 

由平稳性， H ( X „. 1 ) = H ( XJ , 因而有 


(4-48) 

(4-49) 



(4-55) 

(这些技巧也可用来证明对任何一个马尔可夫链，《(；^|：^)随 rz 递增。） 

5. 洗 牌使熵增加。 如果: T 是一副扑克牌的一次洗牌（置换）操作， X 表示这副牌的初始（随 
机的)排列，假定洗牌操作 r 的选取独立于那么 

H ( TX » H ( X ) (4-56) 

其中 TX 表示由洗牌了作用于初始排列 X 而获得的新排列。在习題 4.3 中给出了此命题的 
证明思路。 

4.5 马尔可夫链的函数 

下面叙述的例子如果处理不当，会变得很困难。这从某种程度上反映出目前处理技术的能 
力。…为平稳马尔可夫链，再设是一个随机过程，其中每一项均为 
原马尔可夫链中对应状态的函数。此时熵率 HOO 为多少？这样的马尔可夫链的函数是实际经 
常发生的。但许多情况下，仅含有原系统的状态的部分信息。若匕，¥ 2 ，…，…也构成一个马 
尔可夫链，问题就会简单许多，但实际情况往往并非如此。由于原马尔可夫链是平稳的，则 
y 2 ，…，也是平稳的，从而可以明确定义熵率。若要计算 HOO , 我们可能会先对每个 n 计算 
出，…， y ») 的值，然后求其极限。由于收敛速度可能会任意地慢，很难知道是否已接 
近极限(我们不能只着眼于在 n 和” + 1时值的变化，即使已经偏离了极限，这种变化的差别可能 

® 依然非常小，如考虑 Y +)。 

如果给出上界和 F 界，且它们分别从上下收敛于同一极限，计算效果会很好。这样，当 t ： •界 
和下界的差别较小时，我们可以中止计算而获得极限的一个很好的估计。 

已知 H ( y„l …， A ) 从上面单调地收敛于 HOO 。 对于下界，将使用 h ( y„I L -丨，…， 
yhD 。 这个想法比较巧，是基于 x , 与…含有关于 K 一样多的信息。 

引理 4.5.1 

H ( Y n \ Y „. l ,- 9 Y 29 X l )< H ( y ) (4-57) 

证明： 对灸=1,2,…，有 

H(yjy n . 1 .-,v 2 .x 1 ) ( =H(yjy ll . I .-.v 2 ,y I ,x 1 ) (4-58) 

i = H { Y ll \ Y m . l 9 -, Y X 9 X lt X 0 t X . Xt -, X . k ) (4-59) 

X . k 9 Y 0 r -, Y . k ) (4-60) 

^ H ( Y n \ Y n . l 9 -, Y l 9 Y 0 ,-, Y . k ) (4-61) 

(4-62) 

其中 ( a 〉 成立是由于 h 为 X x 的函数， （ b ) SJ 由 X 的马尔可夫性得到， （ c ) 由于 y , 为 X ,的函数， 
( d ) 由于条件作用使熵减小，而 ( e ) 根据平稳性可得。由于对任意的 I 不等式成立，故两边取极 
限不等式亦成立。所以， 

= H(y) (4-64)D 

下面引理表明，由上述匕界和下界所构成的区间长度是递减的。 

引理 4.5.2 


互 


H(Y n \Y n . l9 - 9 Y l )-mY n \Y n . l9 -,Y lt X l )-0 


( 4 - 65 ) 
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证明 ：上述 区间长度可重新写为 

= /(x l ； yjy B _ 1 ,.-. f y,) 

由互信息的性质，可得 

/(x 1 ； y 1 ,y 2 ,-,yj<H(x I ) 

且 A , Y 2 , …， YJ 随； I 递增。因此， limJd ; 广， y 2 ，…，八）存在且满足 

由链式法则， ^ ‘ •， 

H(X 1 »lim/(X 1 ； y 1 ,y 2 ,-. f Yj 

蹲 - *oo 

= I y .- L -. yi ) 

由于上面的无限和是有限的，且每一项均为 1 非负值，则其通项必趋向于0,即， 

iim/(x I ； yjy B . |f -,y I )=o 

引理得证。 

综合引理 4.5.1 和引理 4.5.2, 有如下的定理。 

定理 4.5.1 若；，…，义构成平穗的马尔可夫链，且 y ,=0( X ,), 那么 

myjy..yLXjXmyxmyjy.-L-.v,) 


(4-66) 

(4-67) 

(4-68) 

(4-69) 

(4-70) 

(4-71) 

(4-72) 

□ 

(4-73) 


且 

limH ( Y n I y ( l .|,-, y l , X ,) = H (> ; ) = limH(yJ y ..,, Vi ) (4-74)* 

一般地，我们也可以考虑 X , 的随机函数 K (即非确定性的函数）。给定马尔可夫过程 X ,, 
X 2 ，…， X ”， 由此定义新过程，…，\,其中每个 Y , 服从 My , U ), a 条件独立于其他所有 
的\，）关/,即 

M? ， y*> = p(xi>n I J.) fl P (乂 I I,) (4-75) 

这样的过程称为隐 马尔可夫模型 （ HMM ), 广泛应用于^音识别、手写体识别等等。以上对 
马尔町夫链的函数的讨论同样适用于隐马尔可夫校型。通过对隐含的马尔可夫状态加入条件， 
我们可以估计出隐马尔可夫模型熵率的下界。细节讨论留给读者。 

要点 

燒率随机过程熵率的两种定义是 :; '； 

H(X) = X l ,X 29 ',X n ^ ^ (4-76) 

• •坊 fl 

H^(A , )=limH(XjX <l - t ,X ll . 2 ,-,X 1 ) (4-77) 

—oo 

对于平稳随机过程， ^ 

H ( X)=frixy (4-78)； 

稳马尔 可夫籤 的痛車 


86 
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H { X ) =- (4-79) 

.着， 9 

热力学第二定律对于马尔可 夫链： 

1. 相对熵 D ( 仏 II 仏')随时间递减。 

2. 分布和平稳分布之间的相对熵 D (^|| II )随时间递减。 

87] ■ 3.若平稳分布为均匀分布，则熵递增。 

4. 对于平稳马尔可夫链，条件熵随时间”递增。 

5. 对于任何马尔可夫链，初始状态心的条件熵 f / UclXd 关于”递增。 

马尔可夫链的 函数： 若 A , x 2 , …， 尤构成平稳马尔可夫链且1=0(兄），则 

H ( vjv .> i .-> v l , x I )< H ( y )< H ( y II | y ll - 1 .-, yi ) (4- so ) 

且 

把，…， （ 4 - 81 ) 

习题 

4.1 双随机矩阵。 对于矩阵 P =[ h ], 如果且对任意的,•有乏 >•, = 1 ,以及任意 

i 

的 j 有 YjPh = 1 * 则称该矩阵 为双随 机的。如果«矩阵尸是双随机的，而且每行每列 
均只含」个 P ,, = l , 则称它 为置换 矩阵。可以证明，任何双随机矩阵均可以表示为 K 换矩 
阵的凸组合。 

( a ) 设概率向 Ma =( ciu 2 , …，= 1。设 b = a /' 其中 P 是双随机的。证 
明： b 为概率向疳且^(心，、,…，^)》/^…，^,…，〜）。由此可说明随机混合作用使 

熵增加。 

( b ) 证明双随机矩阵 P 的平稳分布户为均匀分布。 

( c ) 反之， 证明： 若均匀分布为马尔可夫链转移矩阵 P 的一个平稳分布，则 P 是双随机的。 
4.2 时间箭头。 设 lX , ir =- oo 为平稳随机过程，证明 

间 H ( X 0 \ X - l 9 X . 29 - t X . n ) = H ( X 0 \ X l 9 X 29 -, X n ) 

一~ 换句话说，当前状态的条件熵不论是基于过去条件还是基于未来条件都相等。虽然容易构 

造出一个平稳随机过程，使得驶向将来的随机流看上去极其不同于通向过去的随机流，但 
改变不了该事实。这就是说，人们町以通过研究过程的一个样本函数而确定时间的方向。 
但是在给定现在状态下，将来的下一个状态的条件不确定度等于过去的前一个状态的条件 
不确定度。 

4.3 洗 牌使燏增加。 对于洗牌操作 T 的任何分布和扑克牌的排列 X 的任意分布，有 


H ( TX )> H ( TX \ T ) 

(4-82) 

= H ( T ' l TX \ T ) 

(4-83) 

= H ( X | T ) 

(4-84) 

= H ( X ) 

(4-85) 


其中假设 X 与： T 独立。 

4.4 热力学第二定律。设 XpXhXp …为一阶平稳马尔可夫链。在 4.4 节中，我们已经证明 

，其中 W =2,3, …。因此，将来的条件不确定度随时间增加。即 
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使无条件的不确定度保持为常数，这也成立。但请给出一个例子说明未必对每个 

都随《递增。 

4.5 随机树的熵 。 下面考虑含〃个终端节点的随机树产生方法。首先将根节点 展开： 

八 

然后随机地将两个终端节点中的一个 展开： 

在时刻 I 依均匀分布选取 A -1 个终端节点中的一个，并展开它。如此继续，直至产生《 同 
个节点为止。由此，致使产生具有5个终端节点的树的序列 如下： 

八 


令人惊奇的是，下面的随机树产生方法与含 n 个终端节点的随机树具有相同的概率分布。 
首先在 II ,2,…， II 依均匀分布选取一个整数则可得到如下的图形 

八 

N 、 n-N x 

然后在 II ,2,…， N ,- II 依均匀分布选取整数 N 2 , 并在11,2, •••,(”- N ,)- 11中依均匀分 
布独立地选取另一个整数 / v 3 。 此时图形为 



N l N r N l Ny n-N r Ny 


如此继续到不能再进一步细分为止。（这两个随机树产生方案是等价的，例如，可利用波利 
亚的衡模型 ( Polya’s um model ) 得到。） 

现在设7；为上述方法产生的一棵 含”个 终端节点的随机树。随机树的概率分布似乎 
难以描述，但可以利用递归形式求得其分布的熵。 

先举几个例子。对 ”=2,只产生一棵树。故 H ( T 2 ) = 0。 对 w =3, 有两棵等可能的 
树： 



~90~ 

于是 m ： r 3 ) = k ) g 2。 对 n =4, 则有5棵可能的树，其概率分别为1/3, 1/6, 1/6, 1/6, 1/6。 

下面考虑递归关系。 SNJl ) 为随机树7；右半部分的终端节点数。请验证以下的 
每 一步： 




声 WNpTJ 

= logU - 1) + H(T n I N.) 

= log ( n - 1) + —^77 2 ( W ( T *) 
W 1 *:1 

当 iogu - 1 ) + 土 2 町 *) 

n 1 *-1 

= log ( n - 1) + _ 2 , V H k 


H ( T n . k )) 


( f ) 利用以上结果证明 

(n - l ) H n 
或适当定义 C „ ，有 


W - l ) log ( n - l )-( W -2) log (7 i -2) 


n r ? 一 1 


(4-86) 

(4-87) 

(4-88) 

(4-89) 

(4-90) 

(4-91) 

(4-92) 

(4-93) 


由于则可证得收敛于一个常数。于是，描述随机树 T n 所需的期望 
比特数随《线性增长。 

.6 每元素燏的单调性。 对平稳随机过程 U 2 , …， X ,,试证明 

H ( X | t X 2> -, X > t ) < H ( X lt X 2 ,-, X >l - l ) ( 4 


糾 （ m " …， X| 〉 


(4-94) 

(4-95) 


4.7 马尔可夫链的燏芈 

( a ) 设两状态马尔可夫链的转移矩阵为 


1 ~ Po \ 广 01 


一 Pio 


试求其墒率。 

( b ) 当/> 0| 为何值时，可使熵率达到最大？ 

( c ) 若两状态马尔可夫链的转移矩阵为 


p = 


p P 
0 


求此时的熵率。 

( d ) 试求 ( C ) 中马尔珥夫链熵率的最大值。由于状态0比状态1能产生更多的信息，可以期 
望熵率达到最大值时的 P 必定小于1/2。 

( e ) 设 NU ) 是 ( c ) 中的马尔可夫链长度为 r 的容许状态序列的个数。试求并计算 

H 0 = lim-|-logN(0 

(提示 ：求出 NU ) 关于 iV(f 1) 和 NU -2) 的线性递归表达式。为何尺《是该马尔可夫链 
熵率的上界？请将私与⑺)中求得的最大熵率做比较 a ) 

4.8 最大熵 过程。设离散无记忆信源的字母表为 U ，2 l , 其中字符1的周期为1，字符2的周期 

为2, 1和2的概率分别是/>1和/> 2 。试求每单位时间信源墒 H ( X ) = 岑到最大时的 

仏值，且最大值 H ( Y ) 是多少？ 
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4.9 初始状态。证明，对于马尔可夫链，有 

HCXoIXj ^ mXoIX ..,) 

由此说明，随着将来状态的逐渐展现，初始状态 Xo 将会变得更难复原了。 

4.10 两两独立。设 U 2 ，…，为取值于|0,1丨的 i . i . d . 随机变貴，且 PHX , = 1|= +。 当 

L ' x ,- 为奇时， = 否则 X rt =0 o 假定 n ^3 o [92 

( a ) 证明足与'独立 i ， i 6 ll ,2 ,-, w |)o 

( b ) 求 f /( X ,， X ,)， i »。 

( c ) 求 H ( x lt x 2 t -, x „) o 结果等于 nmx x m ? 

4.11 平穗过程。设…，，…为平稳随机过程（不必为马尔可夫链）。下面哪些论断是 
正确的？如果正确给出证明，否则给出 反例。 

( a ) H ( X ” U 0 ) = mX - n IX 0 )。 

( b ) H ( XjX n )^ H ( X n - l | X 0 )c 

( c ) H ( X rt | XpX 2 , …，递减。 

( d ) H ( X n \ X lt -, X ^ l 9 X n ^ 9 -, X 2H )tll ” 递减。 

4.12 狗寻充骨头的熵率。一条狗在整 数点上 行走，在走每一步时都有可能以概率 P = 0.1 向反 
方向行走一步。设 X 0 = 0, 且第一步朝正方向或负方向走动是等可能的。例如，一个典型 
的走动可以是如下 形式： 

( XoA ，•••）= (0, - 1, -2, -3, - 4, -3, -2, - 1，0，1，…） 

( a ) 试求 H ( X ,. X 2 f -, XJ 0 

( b ) 计算这只狗的熵率。 

( c ) 这只狗在反向行走前所走的步数的期望值为多少？ 

4.13 过去几乎没有信息可以預測将来。对 Tf . 稳随机过程 X 卜 X 2 , …，…，证明 

Iim ^/( X I , X 2 ,-, X n ; X „ M , X n . 2 ,-, X 2 J =0 (4-96) 

因此，平稳过程中长 度为” 的相邻分组的依赖度并不随 ”线性 增加。 

4.14 随机过程的函数 

( a ) 考虑平稳随机过程 u 2 , …，;对某个函数0，定义 y !, y 2 ，…，八为 

… (4-97) 


试证明 

H ( yXH ( Af ) (4-98) [93 

( b ) 若对某个函数少，如果 

… （4-99) 

那么，熵率 H ( Z ) 和 H ( Y ) 具有什么样的关系？ 

4.15 熵率。设 IX ,1是离散平稳随机过程，其熵率为 H ( AO 。 证明 

丄 mx "，...， x 1 u () ， x _ 1 ，...， x_*)—mo (4-100) 

n 

其中是=1，2 ,… ci 

4.16 约束序列的熵率。 在磁记录中，需要对记录和阅读的二进制序列进行一定的限制。例如， 
为确保适当的同步，常常有必要限制1与1之间的0的游程长度。为了减少符号间的干 
扰，可能有必要在任何两个1之间至少存在一个0。我们将通过下面的简单例子来说明这 
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种约束。假定要求序列中任何两个1之间必须有0,但序列中不能连续出现两个以上的0。 
因此，如序列101001和0101001都是有效的序列，而0110010和0000101均为无效序列。 
下面我们要计算长度为72的有效序列的个数。 

( a ) 证明约束序列集合等同于如下状态图中的容许路径集合。 



( b ) 记 X , U ) 为所有终止于状态 * •且长 度为” 的有效路径的条»。请证明 
X 2 U ) X 3 ( n )]7» 足如下的递归 关系： 

「oi n rx^n-ir 

X 2 ( n ) = 10 0 X 2 ( n -1) (4-101) 

_ X 3 (”)」 ID 1 OJ X 3 ( n -1)- 
其中初始条件 X ( l ) = [l 1 or 。 

( c ) 设 


0 0 


(4-102) 


由归纳可得 

\(”）=八乂(”-1) = /\ 2 \(；1_2> = — =八”-汶(1) (4-103) 

对 A 进行特征值分解，由于 A 有不同的特征值，则可写为 A ^ L / dAU , 其中八 
是由各特征值构成的对角矩阵。因此，证明下面等式成立 


XU 


'Y. + AJ^Yz + Al^Ya 


(4-104) 


其中不依赖于当/!充分大时， t 面的和式取 决于锒 大项。证明，对 
« = 1，2,3,有 

丄 logX〆”）—logA (4-105) 

n 

其中 A 为最大的(正)特征值。因此 ，当” 很大时，长度为 w 的序列个数以 A n 级数 
增加。计算上述矩阵 A 的 A 值。（对于特征值不完全相异的情形，问题可类似处理。） 

(d) 现来考虑一种不同的方法。假定一个马尔可夫链的状态转移图与 U) 中给定的相同， 
但其转移概率可任意。因而，该马尔可夫链的概率转移矩阵为 


P = a 0 1 - a 
.1 0 0 _ 

证明此马尔可夫链的平稳分布是 

_r_i _ l_ 卜 a 

户一 [3~ a '3- a '3- a . 


(4-106) 


(4-107) 


( e ) 选择 a 使该马尔可夫链的熵率达到最大值。此马尔可夫链的最大熵率是多少 
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( f ) 比较 ( e ) 中的最大熵率与 ( c ) 中 logA 的关系。为什么这两个答案相同？ 

4.17 重现时间关于分布的不敏感性 。设 X 0 ， Xi ， X 2 ，…为 i . i . d . 序列且服从 p ( x ), 其中 
=11,2, I 。 iV 为下次 X 0 出现的等待时间 3 于是 N = mi n jX „ = X 0 | o 
( a ) 证明 E N = m 0 
• ( b ) 证明 £ logN < mx )。 

( c ) (选做）当 iX , I 为平稳遍历过程时，证明 （ a ) 的结论。 

4.18 平穩非遍历过程。 一个容器里装有两枚有偏的硬币，其中一枚出现正面的概率为/>,另一 

枚出现正面的概率为1-/)。现在随机选取一枚硬币（即选取概率为 +), 然后将它 抛掷” 
次。设 x 表示选取的硬币标识， a 和 y 2 为前两次抛掷的结果。 

( a ) 计算 /(y, ； y 2 lx) 0 

( b ) 计算 I ( X ； Y l 9 Y 2 )o 

( c ) 设 woo 为 y 过程(硬币拋掷序列）的熵率。计算 w (; y )。 （提 示： 考虑 

y 2 , …， n )) 

通过考虑的情形，可以检验你的答案。 

4.19 图上的随机游动。 考虑如 T 的随机 游动： 



( a ) 计算平稳分布。 ® 

( b ) 熵率为多少？ 

( c ) 假定过程是平稳的，求互信息 /( X n + l ; Xj 0 

4.20 棋盘上的随机游动。一 个王在 3 x 3 棋盘 上的随机游动是一个马尔可夫链，试求该马尔可 
夫链的熵率。 



车、相及王后的熵率又是多少？注意，相有两种类型。 

4.21 最大熵图。 考虑含有4条边的连通图上的随机游动。 

( a ) 哪个图具有最高的熵率？ 

( b ) 哪个图的熵率最小？ 

4.22 三维迷宫。 一只小鸟在 3 X 3 X 3 的立方体迷宫中迷失了。这只鸟在相互邻接的房间之间， 
从这个房间穿过墙飞到那个房间的概率是相同的。例如，角落边的房间有3个出口。 
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( a ) 平稳分布是什么？ 

( b ) 该随机游动的熵率为多少？ 

4.23 场率。设1 足 I 为平稳随机过程，熵率为 mu 

( a ) 证明 HCTXmXi )。 

( b ) 等号成立的条件是什么？ 

4.24 熵牟。设 IX,I 为平稳过程， 2, = ( X 2 ,， X 2| + 1 〉， 设 V , = X 2 ,。 考虑过程 
1兄|,丨 Y , I , U , I 和 | V ,| 的熵率 H ⑺）， HQ 0， f /(2) 和 H ( V ) C 这些熵率之中的每一对的 
不等关系《,=或>)是什么？ 

( a ) H ( A *)| H(^)c 

(b) H(Z)o 

(c) H(Af)^ H(V) 0 

(d) H(Z)| H(X)o 
4.25 单调性 

(a) 证明 /(x ； y l ,y 2f -,vjra w 非减。 

(b) 在什么条件下，对所有的互信息恒为常数？ 

4.26 马尔可夫链中的转移。假定 IX , I 构成不可约马尔可夫链具有转移槪率矩阵为 P 与平稳分 
布户。若持续跟踪转移状态，就会形成一个相关联的“边过程” W (edge process), 即这个 
新过程 LKI 在 Yxi 上取值，且 y , = ( X f . | f X I ) o 例如， 

X " = 3,2,8,5,7, … 

产生 

V " = (0,3),(3,2),(2,8)，(8,5)，(5,7)，" 

求边过程 III 的熵率。 

4.27 熵率。 设 IX , I 为10,11值平稳随机过程，满足 

心 =&㊉X 卜脱 + 1 

其中 |2,| KWBemoulli (/>), ㊉ 表示模2加法。求熵率 mO 。 

4.28 过程的浼合。假定观测两个随机过程中的一个，但不清楚观测到的是哪一个，那么熵率是 
多少？ 具体讲，设 X„,X 12 ,X 13 , …为参数是/ ^ 的伯努利 （ Bernoulli) 过程， X 21 ,X 22 , 
…为 Bernoulli (/ > 2 ) 过程。设 

1 Y 

H 1 

2概率为 f 

设 y , = Xa (/=1,2, …）为观测到的随机过程。于是， Y 是过程 U w l 或 U 2 ,! 的观测 。最 
终， y 将知道观测的是哪个过程。 

( a ) | y , l 平稳吗？ 

( b ) III 为 i . i . d •过程吗？ 

( c ) I Y , l 的熵率 H 为多少？ 

(d) 是否有 

-^\ogp(Y lt Y 29 " a 9 Y n )-^H? 




随机过程的燏率 


(e) 是否存在一个码，使它能够达到期望每字符描述长度 H? 

n 

现在，设•服从 Bernoulli(+)。 我们观测到 

2 f - = Xgi , i = 1，2，… 

于是，如前面所述一样，任何时候0都没有固定，但这里每次是依 i.i.d . 选取的。对 
于过程 I 乙 I ,请回答 ( a ), (b ), (c ), (d ), (e) 中的问题，相应答案标记为 U’），（b’）， 
(c，），(d，〉，(e，)。 

4.29 等待时间。设 X 为拋掷均匀硬币过程中首次出现正面的等待时间。例如， Pr|X = 3| = 
设\为第次正面出现的等待时间。于是 

S o = 0 

S” ♦ 1 = S” + X” ♦ 1 

其中 XpUh …为服从上述分布的 i.i.d 序列。 

(a) 过程 |S n l 是平稳的吗？ 

(b) 计算 WS,,S 2 ，…， S”)。 

(c) 过程 |S„I 的熵率存在吗？如果存在，它是多少？如果不存在，为什么？ 

(d) 如果通过抛掷均匀硬币产生一个分布与 S n 相同的随机变量，那么需要的期望抛掷次 
数为多少？ 

4.30 马尔可夫链梓移矩阵 • 

1 1 1 

MBHK 

2 4 4 

1 1 I 

MW 

4 2 4 

丄丄丄 
T 4 2 

设；^服从状态空间 io,i,2i 上的均匀分布， ix,ir 为马尔可夫链，其转移矩阵为 P， 即 
PiXn^i— j\ i) = Pij 9 i 9 j^: \0A t2\ O 

(a) 平稳吗？ 

(b) 求 lim n 〜o 士 

现在考虑下面诱导出的过程 Z,，Z 2 , …，乙，其中 
Zi = 父、 

Zi = X, - X.-iCmod 3) ，1=2,…， w 
于是，7编码了过程的转移，并不是状态本身。 

(c) 求 mzi，z 2 ,“％4) 0 

(d) 求 H (乙）和 mx”），n>2。 

( e ) 求只(厶1厶-,),；1>2。 

(0 对 n > 2 , 乙-!和 Z„ 相互独立吗？ 

4.31 马尔可夫链 3 设 IX,卜 Bemoulli(p)， 我们考虑与之相关的马尔可夫链 I ,其中I = 

(当前1游程中数字1的个数）。例如，若； T = 101110…，则有 V" = 10123(^" 

(a) 求； C" 的熵率。 
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(b) 求 Y" 的熵率。 

4.32 时间对称。设为平稳马尔可夫链。我们限定在已知的条件下观察过去和将 
来。当下标々为多少时，有 

H(X.JX 0 ,X 1 ) = H(X*|X 0 ,X 1 )? 

给出证明。 

4.33 链不等式。 设 V—X 2 —X 3 —X 4 构成马尔可夫 链 3 证明 

/(X 1 ;X3)+/(X 2 ;X 4 )</(X 1 ;X 4 )+/(X 2 ;X 3 ) (4-108) 

4.34 广 播信道 o 设 X—W) 构成马尔可夫链（即对任意的 x t y t z , w t p ( x , y , z t w ) = 
p (. x ) p ( y \ x ) p ( z f w \ y ) ) o 证明 

/(X ； Z)+/(X;W)</(X ； y)+/(Z;W) (4-109) 

4.35 第二 定律的凹性。 设 UJToo 为平稳马尔可夫过程。证明 HUJXo) 关于”是凹的。具体 
讲，请证明 

H(XjX 0 )-H(X lf . 1 |Xo)-(H(X >f - 1 |Xo)-H(X fl - 2 |Xo)) 

= -/(XuX^^IXcXj^O (4-110) 

由此说明二阶差分为负。因此，是”的凹函数。 


历史回顾 

随机过程的熵率首先是由香农 [472] 引人的，同时他也论述了过程熵率与过程产生的可能序 
M 列数之间的关系。自香农以后，从信息论的基本定理推广到一般的随机过程情形，已经有了许多 
研究结果。在第 16 章中，我们给出了一般平稳随机过程的 AEP 的证明。 

隐马尔可夫換型有着广泛的应用，例如语音识别 [432 ]。 约束序列的摘率计算是由香农 
Toll [472] 引人的。这样的序列在磁信道和光学信道中有所应用 [288 ]。 
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本章通过论述信息压缩的基本临界值继续关注熵的定义的合理性。通过对数据源最频繁出 
现的结果分配较短的描述，而对不经常出现的结果分配较长的描述，可达到压缩数据的目的。例 
如，在莫尔斯 ( Morse ) 码中，最频繁出现的字符用单点表示。在本章中，我们的目标是求随机变 
量的 最短期望描述长度。 

我们首先定义即时码概念，然后证明非常重要的 Kraft 不等式，它表明码字长度相应的指数 
值类似于一个概率密度函数。通过简单的演算，可以证明编码的期望码长必大于或等于熵，这是 
本章最为重要的结果。然后，由香农给出的一个简单构造可得，如果允许冗余描述，那么期望描 
述长度可以渐近地达到熵值这个下界。同时，这也说明熵珂以作为有效描述长度的一个自然度 
母。著名的赫夫曼编码程序提供了求解最小期望描述长度分配的一种方法。掖后，我们证明赫夫 
曼编码是竞争最优的，同时也证明，为了获得熵等于 H 的随机变*的一个样本，需要抛掷均匀硬 
币大约 H 次。于是，熵既是数据压缩的一个临界值，也等于生成随机数所需的比特数。因此，从 
许多角度来讲，达到熵 H 的编码都将是最优的。 


5.1 有关编码的几个例子 


定义关于随机变播 X 的信源编码 C 是从 X 的取值空间1到 P •的一个映射，其中 D •表示 
D 元字母表 P 上有限长度的字符串所构成的集合。用 C ( x ) 表示 x 的码字并用 /( x ) 表示 C (： r ) 的 
长度。 

例如， C (红 ）= 00, C (蓝 ）= 11 是红，蓝 I 关于字母表 P = l 0, 11的一个信源编码。 

定义设随机变 M X 的概率密度函数为/ > U ), 定义信源编码 C ( or ) 的期望长度 L ( C ) 


(expected length ) 为 

UC) = 1] p(x)Kx) 

其中 Z ( i ) 表示对应于: r 的码字长度 u 

不失一般性，可假定 D 元字母表为 P =10，1, …, D - ll 。 

以卜是有关编码的几个例子。 

例 5.1.1 设随机变量 X 的分布及其码字分配 如下： 

Pr(X = l ) = y , 码字 C (1) = 0 
• Pr(X = 2) = -^, 码字 C (2) = 10 

Pr(X = 3) = + , 码字 C (3) = 110 
Pr(X = 4) = 码字 C (4〉= lll 


(5-1) 


(5-2) 


易知 X 的熵 f /( X ) 为 1.75 比特，而期望长度 L ( C ) = H ( X ) 亦是 1.75 比特。此处，我们得到了 
一个期望长度正好等于其熵值的编码。注意到任何一个比特序列都可以惟一地解码成为关于 X 
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中的字符序列。例如，比特串0110111100110解码后为134213。 

例5.〗.2考虑关 丁随机 变量编码的另一简单 例子： 

Pr ( X = l ) = y , 码字 C (1) = 0 

Pr(X = 2) = y , 码字 C (2) = 10 (5-3) 

Pr(X = 3) = y , 码字 C (3) = ll 

正如例子 5.1.1 那样，该编码也是惟一可译的。但这里熵为 log 3 = 1.58 比特，而编码的期望长度 
为 1.66 比特，即此时 £7 U )> HU )。 

例 5.1.3( 莫尔斯码）莫尔斯码是关于英文字母表的一个相当有效的编码方案，使用四个字 
M 符的字母 表：点 ，划，字母间隔和单词间隔。使用短序列表示频繁出现的字母(例如，用单个点表 
示 E ), 而用长序列表示不经常出现的字母(例如， Q 表示为“划，划，点，划”）。对于四个字符的 
字母表来说，这并 非最佳 表示。事实上，依此方式，许多可能的码字未被使用，因为英文宇母对 
应的码宇除了其末尾有个字母间隔外，再无别的间隔。在这样的限制条件下，计算满足条件的序 
列个数是一个很有趣的问题。香农在1948年的开创性论文中解决了这个问题。该 问题也 与磁记 
录的编码 问题有 联系，其中不允许出现一些长串的0 ( 见 [5], [370])。 

下面我们逐步对编码的定义条件作进一步的限制。设 x " 表示(心,:^,…,〜）。 

定义如果编码将 X 的取值空间中的每个元素映射成•中不同的字符串，即 

x ^ x => C ( x )^ CU ) (5-4) 

则称这个编码是非 奇异的 （ nonsigular )。 

非奇异性可以保证表示 X 的每个值的明确性。但我们往往需要发送 X 的取值序列。对此， 
通过在两个码字间添加一个特殊的符号（如“逗号 ”〉， 可以确保其可译性。但如此使用特殊的符 
号会降低编码的效率。如果利用码的自我间断性或即时码的思想，效果会更好。受发送 X 的字 
符序列需要的启发，我们定义码的扩展编码 如下： 

定义编码 C 的扩展 ( extensiorOC •是从/匕的有限长字符串到 D 上的有限长字符串的映射， 

定义为 

C(j-ja ： 2* ,, - r n) = . (5-5) 

其中表示相应码字的串联 C 

例 5.1.4 若 CUJsOO , C(J： 2 ) = 11， 则0(1,12) = 0011。 

定义如果一个编码的扩展编码是非奇异的，则称该编码是惟一 可译的 （uniquely decodable )。 
换言之，惟一可译码的任一编码字符串只来源于惟一可能的信源字符串。尽管如此，仍然可 
能需要通观整个编码字符串，才能最终确定信源字符串。甚至有时对于确定字符串中的第一个 
网字符，我们也必须这样。 

定义若码中无任何码字是其他码字的前缀，则称该编码为前级码 （prefix code ) 或即时码 
(instantaneous code ) 。 

由于何时结束码字都可以瞬时辨认出来，因而无需参考后面的码字就可译出即时码。因此， 
对即时码来讲， 一 旦分配给字符 X ,的码宁结束，无需再等待后面出现的码字是什么，就可立刻译 
出字符心。即时码是一个自我间 断码； 我们可以顒着编码字符序列看下去，添加逗号将码字分隔 
开，并不需要观察后面出现的字符。例如，例 5.1.1 中的编码方案所产生的二元串01011111010, 
我们可将它分解成0, 10, 111, 110, 10。 
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关于码的这些定义的包含关系如图 5-1 所示。为说明各类编码之间的不同之处，考虑如下的 
例子，其的码字分配情况见表5-1。在表 5-1 中，对于非 
奇异码，码串010可能对应3个信源序列： 2、14或31。因此， 

该编码不是惟一可译的。表中的惟-可译码并非是无前缀的， 

因而不是即时码。为说明它是惟一可译码，考虑任意一个码 
字串，并从起点开始着手。如果起始两位 是⑻或 10,则可立 
刻译出。而如果起始两位是11，则还得看接下来的位上的数 
字。若下一位是1,则可知第一个信源字符是3。若紧随11后 
不是1而是由0组成的数字串且其长度为奇数，则第一个码字 
必定是110,因而，第一个信源字符只能为4;若由0组成的数 
字串的长度为偶数，则第一个信源字符是3。重复以上讨论， 

可知该编码是惟一可译的。关于码的惟一可译性， Sardinas 和 
Pat te rson[455] 已设计出一个有限检验方法，其主要步骤是形 ^ 5-1 码的几种类羽 

成所有码字的可能后缀集，同时系统地删除它们。在习题 

5.27 中有该检验方法的较为完整的叙述。表 5-1 中的最后一个码显然是即时码，这是因为所有 
码字中无一码字是其他任一码字的前缀。 



表码的几种类型 


X 1 

奇异的 

作珩译，但不是惟一可译的 

惟--时译, m 不 m 即时的 

即时的 

1 

■ —1 

0 

0 

10 

0 

2 

0 

010 

00 

10 

3 

0 

01 

11 

110 

4 

0 

10 

110 

111 


5.2 Kraft 不等式 


为描述一个给定的 信源， 我们的目标是构造期望长度最小的即时码。显然，不可能将短的码 
字分配给所有的信源字符而仍保持是无前缀的。即时码的一组可能的码字长度满足如下不等式。 
定理 5.2.1(Kraft 不等式）对于 D 元字母表上的即时码（前級码），码字长度 


必定满足不等式 

y；D- ; . < 1 (5-6) 

a 

反之，若给定满足以上不等式的一组码字长度，則存在 
一个相应的即时码，其码字长度就是给定的长度。 

证明： 考虑每一节点均含 D 个子节点的 D 叉树。 
假定树枝代表码字的字符。例如，源于根节点的 U 条 
树枝代表着码字第一个字符的 D 个可能值。另外，每 
个码字均由树的-片叶子表示。因此，始于根节点的路 
径可描绘出码字中的所有字符。作为例子，对于二叉 
树情形如图 5-2 所示。码字的前缀条件表明树中无一 
码字是其他任一码字的祖先。因而，在这样的编码树 
中，每一码字都去除了它的可能成为码字的所有后代。 



阁 5-2 关于 Kmft 不等式的编码树 
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令为码字集中最长码字长度。考虑在树中层的所有节点，可知其中有些是码字，有 
些是码字的后代，而另外的节点既不是码字，也不是码字的后代。在树中/,层的码字拥有层 
中的个后代。所有这样的后代集不相交。而且，这些集合中的总节点数必定小于或等于 
泞~。因此，对所有码字求和，则可得 

(5-7) 

或 

SD- Z <1 (5-8) 

这就是 Kraft 不等式。 

M 反之，若给定任意一组满足 Kraft 不等式的码字长度 A ,/ 2 , •••,“，总可以构造出如图 5-2 所 
示的编码树。将第一个深度为/,的节点（依字典序）标为码字1,同时除去树中属于它的所有后 
代。然后在剩余的节点中找出第一个深度为/2的节点，将其标为码字2,同时除去树中所有属于 
它的所有后代，等等。按此方法继续下去，即可构造出一个码字长度为/,,/ 2 ,…的前缀码。 

□ 

下面我们证明无限前缀码仍然满足 Kraft 不等式。 

定理 5.2.2( 推广的 Krah 不等式）对任意构成前级码的可數无限码字集，码字长度也满足 
推广的 Kraft 不等式。 

E < 1 (5-9) 

反之，若给定任意满足推广的 Kraft 不等式的 / i ,/ 2 , …，則可构造出具有相应码长的前级码。 
证明：不妨设 D 元字母表为 第 /个码字是％力…力,。记 O . ma …乂是以 D 


进制表示的实值小数，即 


1 4 

0 •: Vi ： y 2 …: y /. = ^ 2 yp~ f 

，■通 

(5-10) 

由此，这个码字对应于一个区间 



(5-11) 


这是一个实数集合，集合中所有实数的 /) 进制表示都以 O . M ： y 2 〜> v . 开始。这个集合是单位区间 
[0, 1] 的子区间。同时由前缀条件可知，所有这些区间均不 相交。 因而，它们的区间长度总和小 
于或等于1。至此证明了 


SD-^l (5-12) 

正如有限情形，只需沿着上述证明的相反思路进行，即可构造出码长为“，/ 2 ,…且满足 
109] Kraft 不等式的编码。首先将长度下标重新排列，使得…。然后从单位区间的低端开始, 
依次将单位区间进行分配，即可获得满足条件的码字集。例如，如果想构造一个二元编码使其具 

有/ 1 = 1，/ 2 = 2/“，那么，将区间卜，+), …分配给字符，使其对应码字 0, 10, … □ 

在 5 . 5 节中证明惟一可译码的码字长度亦满足 Kraft 不等式。而在这之前，先来考虑如何求 
解最短即时码的问题。 

5.3 最优码 

在 5.2 节中已经证明了满足前缀条件的任何一个码字集合满足 Kraft 不等式，并且当一组码 
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因此， L > H , 当且仅当（即对所有的- \ og oPl 为整数），等号成立。 □ 

定义对于某个《，如果概率分布的每一个概率值均等于 D ~\ 则称这个概率分布是 D 进 
制的 （ D - adic )。 因此，当且仅当 X 的分布是 D 迸制的，上述定理等号成立。 

上面的证明过程同时也提供了寻求最优码的程序：找到与 X 的分布最接近的 D 迸制分布(在 
相对熵意义下）。由该 D 进制分布可提供一组码字长度。然后，选取首次达到的节点(按照 Kmft 
不等式证明过程中的方法），构造出该编码。这样，获得一个关于 JV 的最优码。 

但要实现这个程序并非易事，因为要搜索出与 X 的分布最接近的 D 进制分布并不显然。在 
下一节中，我们会给出一个次优的程序(香农-费诺编码)。在 5.6 节中，我们将叙述实际中寻找 
最优码的一个简单程序(赫夫曼编码)。 

5.4 最优码长的界 

现在证明期望描述长度 L 的取值范围在其下界与下界加1比特之间，即 

H ( XXL < H ( X ) + 1 (5-27) 

回忆 5.3 节中的 问题： 最小化其约束条件为为整数且 
我们已 证明： 通过求相对熵意义下最接近于 X 分布的 D 迸制概率分布，即通过掖小化 

L - H D = D ( p || r )- Iog ((5-28) 

求得 D 进制的 r ( r , = D - VSD -^), 可求得 M 优期望码长。若码长选取/, = log D +，有 L = H 。 
由于未必为整数，则通过取整运算，就可以给出整数码字长度的分配， 

/, = f logD~"l (孓 29 ) 

其中 「: rl 表示 的最小 整数。这组整数满足 Kraft 不等式，因为 

=以=1 (5-30) 

如此选取的码字长度满足 

logo ^；</,< log D ~ + l (5-31) 

在上式中乘 A . ,并且关于 *• 求和，可得 

H d ( X )< L < H / j ( X ) + 1 (5-32) 

由于只有最优码比该编码更优，从而有如下定理。 

定理 5.4.1 设 / r ,/ 2 _ ，…， /二是关于信源分布 P 和一个 D 元字母表的一组最优码长， L •为 

最 优码的相应期望长度 a • = !：△/，）， 則 

H D ( X )< L m < H D ( X ) + l (5-33) 

证 明：设 /, = [" logo ^"), 则/,. 满足 Kraft 不等式且由式 ( 5 - 32 ) 可知 

* H D ( X )^ L = Zp l l i < H D ( X )^\ (5-34) 

但由于 L •是最优码的期望长度，它不大于!：/>/,。再由定理 5.3.1 可知定理得 

到证明。 D 

定理 5.4.1 说明，实际最优码的期望长度比熵大，但不会超出1比特的附加位，这是由于 

log D f 并非总是整数造成的。通过扩展，对多字符迸行分组编码可以缩减这个每字符附加位。 
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根据这--思路，考虑序列发送系统，其中的序列都是来自于 X 的 7 Z 个字符。假定序列中的字符 
是 i . i . d . 服从 p ( x ), 此时可将这 w 个字符看成是字母表中的超字符。 

定义匕为每输入字符期望码字长度，也就是说，如果设 /(； n , x 2 ，…， x „) 是与（&,&，•••， [ H 3 
A ) 相应的二进制码字长度(为简便起见，在本节余 T 的部分中，假定 D = 2), 则 

L n = ^- E /)( x ,, x 2 , —» x n )/( x 1 , X 2，— , x lf ) = -^£/( X ! , X 2 ,--,XJ (5-35) 

将上面推导的界应用于此时的编码，有 

H ( X li X 2 ,-, X n XEaX lt X 29 - 9 X n )< H ( X lf X 2 r -, X n ) + \ (5-36) 

由于 是 i . i . d . ,因此 H ( X 1 , X 2 ,-,XJ = 1： H ( X i ) = nH ( X ) 0 将式 (5-36) 两边同 

除以 n , 得 

HiXXUKHiX )^- (5-37) 

tl 

因此，通过使用足够大的分组长度，可以获得一个编码，可以使其每字符期望码长任意地接近 
熵。 

即使随机过程不是 i . i . d . 的，对来自该随机过程的字符序列也可作同样的讨论，此时仍然有 
界 

H ( X l , X 2 ,-, X ( l )< E /( X 1 , X 2 ,- f Xj < H ( X 1 , X 2 ,-, X n ) + l (5-38) 

同样将上式两边同除以且定义4为每字符期望描述长度，可得 

H ( X lt X 2 ,-, XJ^ L H ( X i > X 2> -, X w ) t 1 (5 39) 


如果随机过程是平稳的，则 mu 2 , …， xj / w — mi )。 当 / i — ~时，每字符期望描述长度趋 
于熵率。于是，可得如下的 定理： 

定理 5.4.2 每字符最小期望码字长满足 


HUhXv.XJ , H ( X lf X 2 ,-,Xj ( 1 

n ^ " n n 

(5-40) 

进一步，若 Xi , X 2 , …，\是平稳随机过程，則 



(5-41) 

其中 H ( Y ) 为随机过程的熵率。 

U 4 


对于定义熵率概念的必要性，上述定理提供了另一个理由：它是最简洁描述该过程所 ® 的每 
字符期望比特数。 

最后讨 论当面对的对象是非真实分布时，期望描述长度会变得怎样？例如，非真实分布可能 
是我们要了解的未知真实分布的一个最佳估计。下面考虑概率密度函数《?(工）的香农编码，相应 

的码长为/(：1：)=厂假定真实分布的概率密度函数是/ >( t )。 此时，不可能有期望码 

长 - I ^( x ) IorpU )。 我们将证明，由于不正确的分布所引起的期望描述长度的增 
加值等于相对熵 D (/> II g )。 于是， D (/> || ^)可具体解释为由于使用不正确的信息而引起的描述 
性复杂度的增加 M 。 

定理 5.4.3( 偏码， wrong code) 码字长度分配 l ( x )= [" log 关于 / >(x) 的期雙码长 


满足 


H(p) + D (/>11 9 )<E^(X)<H(p) + D(/>|| 9 ) + 1 


(5-42) 




证明： 期望码长为 


(5-43) 


El(X) = !]/>(:)「 log^^j"j 

< S/>(i)(log^：j + 1) (5-44) 

=l ： />(x)log^^j + l (5-45) 

=l]/>(x)log^|^ + ^p(x)\og-^^j + 1 (5-46) 

= D(/>IU) + H(p) + 1 (5-47) 

类似地，可以得到期望码长的下界。 □ 


于是，若真实分布为 pU ) 9 而编码使用的是非真实分布 q ( x ) t 则会导致期望描述长度增加 
D ( p || (?〉。 

5.5 惟一可译码的 Kraft 不等式 


前面已证明了即时码必然满足 Kraft 不等式。而惟一可译码类包含所有即时码。因此，如果 
在所有的惟一可译码中将码字长度 L 最小化，那么有希望得到一个更小的期望码长。在本节中， 
我们要证明，如果从码字长度集合考虑，惟一可译码不可能提供比即时码更进一步的结果。在此 
给出 Karush 对如下定理的一个漂亮证明。 

定理 5.5. UMcMillan ) 任意惟一可译的 D 元码的码字长度必然满足 Kraft 不等式 

(5-48) 

反之，若给定满足上述不等式的一组码字长度，則可以构造出具有同样码字长度的惟一可译码。 

证明： 考虑编码 C 的务次扩展 C * (即原先惟一 p 了译码 C 的々次串联所形成的码）。由惟一可 
译件的定义，该码的 々次 扩展是非奇异的。由于所有长度为 n 的不同 D 元串的数目仅为/，，故 
由惟一可译性可知，在码的 A 次扩展中，长度为 n 的码序列数目必定不超过由此讨论来证 
明 Kraft 不等式。 

设字符:所对应的码字长度记为/(工）。对于扩展码，码序列的长度为 


… ，工 *) = S 


我们要证明的不等式为 


S D 


<i 


证明的技巧就是考虑上式左边量的々次幕。于是，由式 (549) 可得 

(v D- /(x) )* = E E … S (: 山 ..D 

x^X X|€A^j€Y 


-/(X,) 


(5-49) 


(5-50) 


(5-51) 

(5-52) 


= X ： D - /( ^ (5-53) 

现将上式中的各项按码字长度合并同类项，可得 

1； D ' /(xt) = Yja ( m ) ir m (5-54) 

其中 /™ x 表示码字长度的最大值， a ( m ) 表示所有 W 长码字对应的信源序列/的数目。但是，由 


a { m)D 


(5-54) 


于原编码是惟一可译的，从而对于每个 m K 码字序列，至多存在一个信源序列与其对应，故而 
至多存在个 m 长的序列。因此从而有 


(S D- l(r) ) k = 2a(m)D 

«- 

< ^]zrD' m 


= ki. 


所以 




(5-55) 


(5-56) 

(5-57) 


(5-58) 


由于上述不等式对任意的 A 均成立，因此当~时，不等式仍然成立。又因为1，可 
得 

DO ''. < 1 (5-59) 

此即是 Krah 不等式。 ； 

反之，若给定满足 Kraft 不等式的一组/^/^…， / m , 正如 5.2 节中所证明的，可以构造出相 
应的即时码。由于任何即时码都是惟一可译的，因而也构造出了惟一可译码。 □ 

推论 无限信源字母;的惟一可译码亦滿足 Kraft 不 等式。 

证明： 对于无限值1<1，上述证明方法不再适用之处在于式 (5-58), 这是因为对于无限编码， 
/«««为无穷大。但只需对上述证明做个简单的修正，此推论的证明即可完成。由于惟一可译码的 
任一子集仍为惟一可译码，因此，无限码字集的有限子集亦满足 Krah 不等式。故 

S D w . = (5-60) 

给定满足 Kraft 不等式的一组码宇^度/ 2 ,…，由 5.2 节可以构造出相应的即时码。由于即时 
码是惟一可译的，因此巳构造出具有无限个码字的惟一可译码。因而， McMillan 定理对无限字母 
表情形亦成立。 □ 

上面的定理蕴涵着一个相当令人震惊的 结果： 从码字长度集的角度考虑，惟一可译码类不能 
提供比前缀码类更优的选择。对惟一可译码与即时码而言，码字长度集是一样的。因而，当将允 
许的编码拓展到惟-可译码类的范畴，前面所得的关于最优码字长度的界的结果仍然是成立的。 


TT7 


5.6 赫夫曼码 


关于给定分布构造最优(最短期望长度）前缀码，赫夫曼 [283] 给出了一个简单的箅法。我们 
将证明，对于相同信源字母表的任意其他编码，不可能比赫夫曼箅法所构造出的编码具有更小的 
期望长度。在给出任何正式的证明之前，先通过几个例子介绍一下赫夫曼码。 

例 5.6.1 考虑一个随机变量 X ,其取值空间为义=11，2, 3, 4, 5!,对应的概率分别是 
0.25, 0.25, 0.2, 0.15 和0.15。为获得 X 的一个最优二元码，需将最长的码字分配给字符4和 
5 0 这两个码字长度必定相等，否则若将这两个码字中较长码字的最后1位剔除，仍可得到一个 
前缀码，但此时期望长度变短了。一般地，我们可以将该编码构造成为其中的两个最长码字仅差 
最后一位有所不同。对于这样的编码，可将宇符4和5组合成单个信源字符，其相应的概率值为 
0.30。按此思路继续下去，将两个最小概率的字符组合成一个字符，直至仅剩下一个字符为止，_ 
然后对字符进行码字分配，最终我们得到如下的 表格： 1 _ 
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上述编码的期望长度为 2.3 比特。 

例 5.6.2 考虑 t 例中随机变 tt 的三元码。现在将三个最小概率的字符组合成一个超字符， 
得到如下的 表格： 


码字 -V 槪申 



此时的编码期望长度为 1.5 铁特 (ternary digit )。 

例 5.6.3 如果 D >3, 信源字符数目珂能不充足，以至丁•不能每次总玎以将 D 个字符组合 
起来。在此情形下，可添加虚拟字符并将其放置在原字符集的最后面。虚拟字符的槪率为0且插 
人后可填满一棵树。由于在每一次简化过程中，字符数均减少 G -1 个，而要求字符的总数是1 
+ HD -1), 其中 A 为树的深度。因而，需要添加足够多的虚拟字符，使字符总数恰好为1 + 
々 （D — 1)。 例如： 



m ] 此时编码的期望长度为1 .7 铁特。 

对赫夫曼编码的最优性在 5.8 节中给予证明。 

5.7 有关赫夫曼码的评论 

1. 信源编码与 20 问題游戏的等 价性。先暂时离开主题，讨论一下信源编码与“20问题”游戏 
的等价性。假定要设计一套最有效的是否型问题以便从 B 标群中识别出其中一个目标。 
假设目标的概率分布已知，那么是否能找到最有效的问题序列？（为了识别一个目标，必 
须保证该问题序列能够将一个目标从一群可能的目标中惟一地区分出来，最后一个问题 
的答案不必要求一定为“是”。） 

为此， t 先说明这样一系列提问方案等价于一个目标编码。在该提问过程中，当前 
所要提出的问题仅依赖于前面提出的若干问题的答案而定。由于答案序列惟二确定该目 
标，因而所有目标对应着不同的答案序列。并且，如果用0表示“是”，用1表示“否”，那 
么可获得目标集的一个二元码。该编码的期望长度即是提问方案所需的期望问题数。 

反之，若给定目标集的一个二元编码，可以求得与该编码相对应的问题序列，使其期 
望问题数等于编码的期望码长。如提问方案中的第一个问题是：“目标的对应码字的第一 
位是1吗?” 


码字长度 


码 字 


概 率 
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由于赫夫曼编码是随机变量的最优信源编码，因而最优的问题系列可由赫夫曼编码来 
确定。在例 5.6.1 中，最优的第一个问题是“ X 等于2或3吗?”对此问题的回答可确定赫夫 
曼编码的第一位。假定第一个问题的回答是“对”，那下一个问題应该是 “X = 3 吗?”这可确 
定码的第二位。然而，并不需要等待给出第一个问题的答案之后再问第二个。对于第二个 
问题，可以是“ X 等于1或3吗?”，它独立于第一个问题，由此可确定赫夫曼编码的第二位。 

在最优的提问方案中，期望问题数 EQ 满足 

H ( XXEQ < H ( X ) + 1 (5-61) IM 

2. 加权码字的赫夫曼编码。 最小化 EA /, 的赫夫曼算法其实对任意一组 A 》 都是成立的，而无 
需考虑 SA 的大小。此时，赫夫曼编码算法最小化的是码长加权和而非平均码长。 

例 5.7.1 利用相同的箅法，可对加权情形进行最小化 





在此悄形下，该编码使得码长加权之和最小化，且码长加权和的最小值为36。 

3. 赫夫曼编码与“切片”问題（字母码）。 我们已经说明了信源编码与20问题游戏的等价性。 

对于给定的随机变燉， M 优问题序列对应于一 个最优 的信源编码。然而，由赫夫曼编码确 
定的最优问馳方案要求对于任一问题，存在某个集合 AGI 1, 2, …， ml , 使该问题具有形式 
“ X 6 A 吗?” 

下面考虑的“20问题”游戏的问题集是带约束的。具体讲，假定 AT = 11,2, …， ml 中的 
元索降序排列为并且要求所有的提问只能是惟一形式 “ X > a 吗?”，其 
中^是某个数。由赫夫曼算法所构造出的赫夫曼编码可以不与 切片集 (形如 U : T < a | 的集 
合)相对应。如果选取由赫夫曼编码所得到的码字长度（由引理 5.8.1 知 
并且用它们来分配字符到编码树上，使得每个码长对应着编码树的一个层，在对应的层上 i 
将首达节点处标示上对应的字符，由此方法可构造出另_个最优码。然而与赫夫曼编码不 
同的是，该编码是一个 切片码 (slice code ), 这是因为与此最优码等价的最优问题方案中的每 
个问题(对应该码的一位)将该树分裂成一系列与 U : x < a | 的集合形式。. 

下面用一个例子来说明这点。 

例 5.7.2 考虑例5.6.1。珂知由赫夫曼编码程序所构造出的赫夫曼码并不是切片码 。 SH 
但若使用由赫夫曼编码程序获得的码字长度，即12,2,2,3,3|,同时将相应字符分配给编 
码树中相应层的首达节点，就可得到随机变最的如下 编码： 

l—00,2-K)l,3—10,4—110,5—111 

可以证明上述编码是个切片码。由于码字是按字母序排列的，故我们将这类片段码称作 
字母码 (alphabetic code )。 

4. 赫夫曼编码与香农码。 对于某个特定的字符，使用码长为 r 女 "1 的编码(称为香 农码） 

可能比最优码更差。例如，考虑两个宇符，其中一个发生的概^为 0.9999 而另一个为 

0.0001。若使用码字长度厂则意味着它们的码长分别为1比特和 I 4 比特。然 

而这两个字符的最优码长都是1比特。因而，在香农编码中，不经常发生的字符的码字 
长度一般比最优码的码字更长。 




最优码的码字长度总是小于等于 I " logf "1 吗？下面的例子可说明该问题并不总是 
对的。 

例 5.7.3 设随机变置 X 的分布为古)。赫夫曼编码程序产生的码字长度 
为(2,2,2,2)或(1，2,3,3)(依赖于槪率合并的选取，读者可以自行验证（见习题5.12))。这 

两个码的期望码字长相同。对第二个编码，其第3个字符的长为3,比 log &") 大。因此， 

香农码中某个字符的码字长可能小于最优(赫夫曼)编码中的相应字符的码字长。这个例子 
也说明了一个事实，即最优码的码字长集合并不惟 一( 可能存在1个以上的具有相同期望 
值的码长集)。 

对于单个字符来说，不论是香农码还是赫夫曼码都可能有更短的码字长度，但从平 
均意义上讲，只有赫夫曼编码具有更短的期望长度。另外，从期望码长衡贵，香农码和赫 
夫曼码的差别不超过1比特(这是因为两者的平均码长均在 H 和 H + 1之间）。 

5. 费诺编码。费 诺提出了构造信源编码的一个次优程序，类似于切片码的思想。在他给出的 

方法中，先将概率值以递减次序排列，然后选取 A 使得 I A 丨达到最小值。这个 

操作将信源字符集划分成了槪率几乎相等的两个集合。^概率&高的那个集合中的字符 
对应码字的第一个位置上写成0,槪率值较低的集合写成 U 然后对每个划分出来的子集 
继续重复此过程。由此递推程序，《终每个信源字符均可得到一个相应的码宇。对此方案， 
虽然一般不是最优的，但可以达到 UCX H ( X ) + 2( 见[282])。 

5.8 赫夫曼码的最优性 

利用归纳法可以证明二元赫夫曼码是最优的。记住重要的一点，最优码有很多。例如，将一 
个最优码码字的位倒序，或交换具有相同长度的两个码字，均可获得另一个最优码。由赫夫曼程序所 
构造出的躭是一个 ft 优码。为证明赫夫曼码的最优性，首先来证明特定最优码所具有的某些性质。 
不失一般性，假定随机变》的概率分布列依次排列为回忆最优码的定 

义可知，当 SaA 达最小时，编码是最优的。 

引理 5.8.1 对任意一个分布，必然存在满足如下性质的一个最优即时码（即有最小期望长 

度)： 

1. 其长度序列与桉概牟分布列排列的次序相反，即，若岛>九，則 

2. 最长的两个码字具有相同长度。 

3. 最长的两个码字仅在最后一位上有所差别，且对应于两个最小可能发生的字符。 

证明： 实际上，证明需要的步骤是如图 5-3 所示的交换、修剪及重排过程。考虑一个最优码 

C .： 

• 若岛，則此时通过交换码字即可得此结论。 

设 C ；« 为将 Cm 中的码字 j 和 ife 交换所得到的编码，则 

L ( C ；)- L ( C W ) = SpA - SM (5-62〉 

= p/k + M - P/j ~ ( 5 _ 63 〉 

= ( Pj - Pk )( lk - h ) (5-64) 

但九 > o , 由于是最优的，可得 ucr m )- uc w )> o , 故必有 i k > ijo 从而最优 
码本身必定满足性质1。 
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a ) b ) c ) d ) 

图 5-3 最优码的有关 性质。 假定… > p m 。 a ) 给出可能的即时码。通过修剪无兄弟的分枝，可将 
原码改进为 b >。 将编码树重排成如 c > 所示，使得从顶部到底部按照码字长度的增加排列。 
敢后，交换槪率匹配使得编码树的期单深度得到改进，如 d ) 所示。因此，任何一个 fi 优码都可以通 
过重排和交换 M 终具有如 d ) 所示的典则形式。在这里请注意/:彡心^… </ m 以及 M 后两个 
码字的差别仅在 于最后 一位 


• 最长的两个码字具有相同的长度。 通过修剪码字获得结论。如果两个最长码字长度不 
同，那么将较长码字的最后一位删除，它仍可保持前缀性质，但此时具有更短的期望码字 
长。因此， M 长的两个码字长度必定相等。由性质1可知，最长的所有码字对应于那些 
最小可能发生的信源 字符。 

• 两个最长码字仅在最后一位有所差别，并且分别对应于两个最小可能发生的信源字符。 
并非所有 的敁优 码都满足这个性质，但通过重排可以获得满足该性质的最优码。如果存 
在长度 S 长的码字，则删除码字的 M 后一位，所得的码字仍满足前缀性质。从而期望码 
字长度有所减小，这与编码的最优性矛盾。因此，在任何一个 最优编 码中， M 大长度码字 
有兄弟。此时，我们交换两个 ft 长的码宇使得具有《小概率的信源字符对应于树上的两 
个兄弟 ( sibling )。 这样处理并没有改变期望长度 SAA 的值。于是，两个垴小概率信源字 
符对应于最长的两个码字，它们除了最后一位不同其他都完全 相同。 

总之，我们已 证明： 若 则存在长度列 L 的-个《 
优码，且码字 cu mM ) 和 cu m m 最后一位有所区别。 口 

因此，满足引理中性质的 ft 优码是存在的。我们称这样的码为 典則码 （canonical 00 ^>。_对于 
m 元字母表上的概率密度函数 p =(/ M ,/> 2 , …， An )， P > /我们定义其 m - l 元字母 
表上的赫夫曼合并 (Huffman reduction ) 为 = ( Pi ， p2 , …， Pm - 2,Pm ] + p m ) (见图 5-4)。 用 
表示 p ' 的最优码，而用 C ^- Ap ) 表示 p 的典则最优码。 



图 5-4 赫夫曼码的推导步骤 。令 P \> P » y > a ) 给出一个典则最优码。合并两 个最小 概率， 

得到 b ) 中的编码 。按照 降序方式重排槪率值，得到 c ) 所示的⑺_ 1个宇符上的典则码 

最优性证明可以由下面两个构造得到：首先，通过扩展 P 的最优码构造出 P 的码，然后将 P 
的典则最优码精简，构造出赫夫曼合并 〆 的码。比较两个码的平均码字长可以证明，通过扩展 P 
的最优码就可得到 P 的最优码。 




基于 p 的最优码构造 m 元扩展码的方法如 下：取 中权重为 p m -, + /, m 的码宇，对其迸 
行扩展，在尾部加0形成字符 m - 1的相应码字，加1形成字符 m 的相应码字。该编码的构造过 
程说明 如下： 

C w ( p ) 


tf 2 = 


h = l \ 




(5-65) 


Pm-\^ Pm ^m-\ 广 m - 1 - i = = + l 

W m = W ， m . l l l tn = l ， m - l + l 

由平均长度乂的计算表明 

L(p) = L*(p)+/> m - 1 + p m (5-66) 

类似地，从 p 的典则码出发，将两个 fi 小概率 AnM 和/>«对应的字符 m -1 与 m 的码字(依 
照典则码的性质，这两个码字实际上是兄弟)合并，可以构造出 P 的最优码。 P 的新码的平均长 
度为 


L(P’） = + - 1) 

i»l 

= S M - Pm-1 ~ Pm 




(5-67) 


(5-68) 

(5-69) 


= L B ( p )- p m .,-/> m (5-69) 

将式 (5-66) 与式 (5-69) 相加，得到 

• L(p ) + L ( p ) = L - (p ) + L -( p ) (5-70) 

或者 

( L ( p )- L -( p )) + ( L ( p )- L B ( p )) = 0 (5-71) 

下面我们考察式 (5-71) 中的两项。由于厂（ 〆 )为 p 的最优码长，由假定，有 
0。同理，扩展 p 的最优码得到的码的平均长度不低于 P 的最优码长（即 L ( p )_ I ^( p )>0)。 两 
个非负项之和为0只有当两项全为0时成立，因此， L ( p ) = I ^( p ) (这就是说， p 的最优码的扩 
展关于 p 也是最优的）。 

因此，如果从 m _ 1个字符上的槪率分布 R 的一个 ft 优码出发，通过扩展对应于 Pm^Pm 
的码字，就可以获得 m 个字符上的编码，且得到的新码是最优的。事实上，对于二元码，码的最 
优性是明显的，我们可以利用归纳法来证明如下的一般性定理。 

定理 5.8.1 赫夫曼码是最优的，即，如果 C •为 赫夫曼码而 C ' 是其他码，則 UC m )< 
L(C)o 

针对二元字母表情形我们已经证明了上述定理。该证明过程可以推广，对于 D 元字母表情 
形，赫夫曼编码算法的最优性也是成立的。顺便说一句，我们应该注意到了在每一步合并两个最 
小可能发生的字符时，赫夫曼编码是个“贪婪”箅法。前面的证明表明这样的局部最优性可以保 
证最终编码的全局最优性。 

5.9 Shannon - Fano-EI ias 编码， 

在 5.4 节中，我们已经证明了码字长 / U ) =「 log "1 的集合满足 Kraft 不等式，由此可 
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Fix) 


以构造信源的惟一可译码。在本节中介绍一个简单的构造程序，基本思路是利用累积分布函数 
来分配码字。 

不失一般性，假定取/=|1，2,…， ml 。 假设对所有的 I ， 有/ >(工）>0。定义岽积分布函数 
F (: r ) 为 

FU ) = D /> U ) (5-72) 

其函数图形见图 5-5 所示。考虑修正的累积分布函数 

F ( x ) = ^] p ( a ) + y />( x ) (5-73) 

其中， FU ) 表示 _ r 的所有字符的概率和 
加上字符 x 概率的一半所得到的值。由于随机 
变 tt 是离散的，故累积分布函数所含的阶梯高 
度为 />( x )。 函数 P (: r ) 的值正好是与工对应 
的那个阶梯的中点。 

由于所有的概率值是正的，若《关1则 
PU ) 关 F (6)。 若已知 FU )， 则可以确定 I 。 

因此，只通过观察*积分布函数的图形，就可 
找得相应的: r 。 故 F ( or ) 可以作为: r 的编码。 _ 

但在一般情况下，戶(1)霱要用无限多比特才可表示的实数。所以，使用 F (: r ) 的精确值作为 
对工的编码并非切实可行。假如便每近似值，那么需要精确到么程度呢？ 

假定将 F (: r ) 舍人取/⑴位（记为 LFU ) J , u> )。 于是，取 PU ) 的前 / U ) 位作为： r 的码。 
由舍人定义，可得 

F(x)-LF(x)J,( x) <^) 

"|+1， 则 



(5-74) 


若 /( x>=r ^ 


pt 


1 

2 /u> 


<-^ = F(x)-F(x-l) 


(5-75) 


因而， LF ( x )」 / u > W 于对应 x 的阶梯之中，那么，使用 /( x ) 比特足以表示 x 。 

这里，除要求码字与字符——对应之外，还要求码字集是无前缀的。为验证该编码是否为前 
缀码’考虑每个码字 ZiZ 2 … Z /, 注意到它实际上代表的不是一个点，而是一个区间 

\^ i ). ZiZ 2 ，，， Zi t 0. ZiZ 2 ，， 'Zi + ji ] o 码是无前缀的当且仅当码字对应的区间互不相交。 

现在证明上述码字集合无前缀。对应任一码字的区间长度为2由式 (5-75) 可知所有区 
间长度均小于 x 对应的阶梯高度的1 C 。区间的下端位于对应阶梯的下一半中，于是区间的上端 
位于对应阶梯的顶部之下，故而在累积分布函数之中，任一码字对应的区间都真包含于相应字符 
所对应的阶梯中。所以不同码字对应的区间不相交，此码是无前缀的。注意，该程序没有要求字 
符按其概率大小顺序排列。在习题 5.5.28 中，给出了要求槪率值排列有序的另一个编码程序。 

由于使用 /(•!)=[" log ~~] + 1比特来表示工，则编码的期望长度为 

L = l ]/)( x )/( x ) = log ^ j ]+ 1)< H ( X ) + 2 (5-76) 

因此，该编码方案的期望码长不会超过熵值 2 比特。 
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第 5 章 


例 5.9.1 首先考虑下面的例子，其中所有概率值都是二进制的。码的构造如 下表: 



P ( x ) Fix ) Fix ) 



0.5 

0.8125 

0.9375 


F (_ r > 的二进制表示 /( x ) = 

0.001 3 

0.10 2 

0.1101 4 


码字 



10 




在此情形下，期望码长为 2.75 比特，而熵为 1.75 比特。对于这个例子，赫夫曼编码的期望 
码长恰好与熵相等。注意表格中给出的码字，显然存在着某些无效性，如最后两个码字的最后一 
129) 位均可删除。但是，如果删除所有码字的最后一位，那么所得到的码就不再是无前缀的了。 

例 5.9.2 现在给出构造 Shannon - FanoElias 码的另一个例子。在此例中，由于分布不是二 
进制的，所以 F ( x ) 的二迸制表示可能有无穷位数字。用 0.51 表示 0.01010101 …。 构造的码如 
下表： 


X 

pU ) 

Fix ) 

F ( x ) 

FU > 的二进制表示 

^>=r 4 志 I” 

码字 

1 

0.25 

0.25 

0.125 

0.001 

3 

001 

2 

0.25 

0.5 

0.375 

0.011 

3 

on 

3 

0.2 

0.7 

0.6 

0.10011 

4 

1001 

4 

0.15 

0.85 

0.775 

0-1100011 

4 

1100 

5 

0.15 

1.0 

0.925 

0.1110110 

4 

1110 


上述编码的平均长度比该信源絲夫曼编码(例 5.6.1) 的长度大 1.2 比特。 

Shannon - FanoElias 编码程序也可以应用到随机变撤序列。其关键思想是利用序列的累积分 
布函数以适当的精度表示作为该序列的编码。将此方法直接应用到长度为《的分组码，需要计 
算 所有” 长序列的槪率和累积分布，且这种计算量随分组长度以指数增长。但是一种简单的技 
巧可以保证我们每当在分组中观察到一个字符时，可以逐次地计算出槪率和累积密度函数，且保 
证计算攢随分组长度线性增长。直接应用 Shannon - FanoElias 编码需要的计算精度随分组长度增 
长，因而处理较长的分组长度是不现实的。第13章将介绍算术编码，使用固定的精度对随机变 M 
序列进行编码，是 ShanrwhFan ^ Elias 编码的推广，其复杂度随序列的长度线性增长。该方法是现 
实世界中许多压缩方案的基础，比如， JPEG 与 FAX 的压缩标准都用到了它。 

5.10 香农码的竞争最优性 

我们已证明赫夫曼编码是具有最小期望长度的最优码。但是，对某个特定的信源序列来说， 
赫夫曼编码的性能又如何呢？例如，对所有序列中来说，赫夫曼编码优于其他编 码吗？ 显然不 
_是’因为存在某些编码，它们分配较短的码字给不经常发生的信源字符。对于这些信源字符，这 
样的编码比赫夫曼编码更好。 

在正式叙述竞争最优性问题之前，考虑下列两人间的零和 游戏： 有两个人，给定一个概率分 
布，要求他们对此分布各自设计一个即时码。现有一个信源字符来自该分布。比赛规则是：对此 
信源字符，如果参赛者 A 设计的码字比参赛者 B 设计的短或长，则 A 相应的得分是1或_1，若 
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比个平手，则 A 的得分为0。 

用赫夫曼码的码长处理并不容易，因为它没有关于码字长度的显式表达式。相反，若考虑香 

农编码，其码字长度 /( ： r)=[" 问题就容易处理了。在此有如下定理。 

定理 5. 10.〗设 /(or) 为香农码的相应码字长度，而 r) 表示其他惟一可译码的相应码字 
长度。则 

Pr (/( X )>/' U ) + (5-77) 


例如，/'( X )比 / U ) 短5比特或更多的概率不超过 
证明： 


Pr (/( X ) W ( X ) + c ) = Pr (「 lo g ^ o "]^ //(X) + c ) (5-78) 

< Fr(log + c - l ) (5-79) 

= Pr(p(XX2- /(x) - f+1 ) (5-80) 

=S p ( x ) (5-81) 

，:〆 xW 一 1 % 

< S 2- / * (x) - (c -° (5-82) 

< ^]2 _ r ( x ) 2- (c ' l) (5-83) 

(5-84) 

由 Kraft 不等式得到 □ 


因此，在大多数情况下，没有其他码能够比香农码更为优越。现在我们从两方面来加强这个 
结论。在博弈论架构中，人们常希望保证 /( ： r)</'(:r) 而不是 /(:r)>〆 (: r >。 事件 /U)<Z' (: r) 


+ 1成立的概率不能保证这点。下面我们证明甚至对于这个更为严格的判别准则，香农码也 
是最优的。回顾一下，如果对所有: r, log ^均为整数，则概率密度函数 M ： r) 是二进制。 

定理 5.10.2 对二进制概率密度函數 />( ： r), 设 /(or) = log^j 为信源的二元香农码的码 

字长度， /'( x ) 为信源任何其他惟一可译二元码的码字长度。則 

Pr (/( X )</ / ( X ))^ Pr (/( X )>/ / ( X )) (5-85) 


当且仅当对所有的 j :, 有 /'( x ) = / U ) 等号成立。于 

是码长分配 /(• r ) = log ^ j 是惟一竟争最优的。 

证明：定义函数 sgn ( f ) 如 F : 

1 当 f >0 

sgn(0 =< 0 当 f=0 (5-86) 

-1 当 r <0 

由图 5-6 易知 

s & iitXr-l 对于 z=0,±l,±2, … (5-87) 
注意，尽管上述不等式对所有的实值 f 并不满足， 
但对所有的整值〖却是满足的。此时可以得到 
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Pr (/' U )< ZU ))- P r (/'(；0>/(；0)= S PU )- E M 工） (5-88) 

X ： r < x )</( X ) X ：/*( x )>/( i ) 

= - l \ x )) (5-89) 

x 

= E sgn (/( X ) - L\X)) (5-90) 

< l ]/>( x )(2 /( - r, - /，u) -D (5-91). 

x 

= X ]2' /( x ) (2 /(x, - ru) - 1) (5-92) 

x 

= ^2~ ru) - E 2 _/(x) (5-93) 

x x 

= S 2' ru) - 1 (5-94) 

3 L 

<1 - 1 (5-95) 

= 0 (5-96) 

其中 ( a ) 由 sgn ( x ) 的上界得到， （ b ) 是由于 〆 (: r ) 满足 Kraft 不等式。 

在以上的关系链中，要使等号成立，仅需 U ) 和 （ b ) 均取等号。为使 sgnU ) 达到它的界 f-l 
当且仅当 f =0 或1，即为使 ( a ) 式为等号，当且仅当 /( x ) = /' U ) 或 /( x ) = /' U ) + l 。( b ) 式等 
号成立，意味着要求 /' (: r ) 满足 Krah 不等式恰好等号成立。综合这两点，对所有的 x 有/'(工）= 
/(• r ) 成立。 □ 

推论 对于非二进的概芈密度函數， 

£ sgn (/(* r ) - /' U >-1)<0 (5-97) 

m \ 其中 /( x ) = f log —/'( x ) 为信源其他任何一个编码 0 

证明： 沿用上述定理的证明过程，命越即可得证。 口 

由此，我们证明了在某类判别准则下，香农码 /( i )=「 iog ^ j "| 是最 优的； 且对于支付函 
数，香农码具有稳健性。特别地，对于二进制的/>，£(/ -/')<0,£ sgn (/-/')<0, 再由不等式 
(5-87), 可得£/(/-/')<0,其中/是满足 / U )<2'-1 的任意函数，/=0,±1,±2 〆 "。 

5.11 由均匀硬币投掷生成离散分布 

在本章的前面几节中考虑的问題是如何用比特序列表示一个随机变 M , 使表示的期望长度 
达到坡小。通过讨论(习题 5.5.29) 可知，这样的已编码序列基本上不能再压缩了，因此其熵率近 
似等于1比特每字符。从而，已编码序列上的比特实质上可通过抛掷均匀硬币过程来生成。 

在本节中，我们将稍稍绕开一下信源编码的讨论主题，先考虑其对偶问题。需要拋掷均匀硬 
币多少次，才能够生成服从特定槪率密度函数 P 的随机变 M ? 先考虑一个简单例子。 

例 5. 11.〗给定拋掷均匀硬币（均匀比特)所产生的序列，假定以此导出一个随机变里 X , 
其分布为 

a 槪率为 f 

概率为+ (5-98) 

c 概率为 f 

答案很容易猜测。若序列的第一位是0,令又=^2。若前两位是10,令 X =6。 如果发现前两位 


是11，则令 X = c 。 显然，此时 X 服从所要求的分布。 


在此情形下，计算可得生成该随机变量所需的期望均勻比特为 1(1) + +(2> + +(2) = 1.5 

比特，这恰好等于分布的熵。这是偶然的吗？不，这正是本节所要阐述的结论。 

对于一般问题，我们严格叙述如下。已知由抛掷均匀硬币所产生的序列 &, Z 2 ，…，以此希 
望生成一个离散型随机变量…，使其概率密度函数为…，设 ® 
随机变暈了表示在算法中需要的硬币抛掷次数。 

用二叉树可将算法描述成从比特串 Z ,， Z 2 ，… 到可能结果 X 的映射。 

树的叶子表示输出字符 X ，由根节点至叶子的路径表示由均勻硬币产 - V . 

生的比特序列。例如，关于分布(士,+ ,•^的树如图 5-7 所示。 b ^ 

表示算法的树必须满足一定的 性质： 图 5 _ 7 生成分布 ) 

1. 树必须是完全的，即每个节点或者是-片叶子，或者在树中 

拥有两个后代。树有可能是无限的，这我们会用几个例子 # 

来说明。 

2. 深度为 々的 叶子的槪率是2〃。许多叶子用相同的输出字符标记，即所有这些叶子的总 
概率应等于输出字符的希望概率。 

3. 为生成随机变《 A ： 所需的均勻比特数的期望值 E 了等于这棵树的期望深度。 

在实际中，有许多可行箅法 ，生 成相同的输出分布。例如，映射 00- a ,01—6,10- c , ll— a 

亦生成分布(士，士，士)。尽符’如此，这个算法使用的是两个均匀比特生成每个样本，而先前的 
映射仅用 1.5 比特每样本，因而没有先前给出的映射更为有效。这促使我们提出一个问题：为生 
成指定的分布， ft 有效的算法是什么，与分布熵之间的关系又如何？ 

我们希望所有的均匀比特至少与生成的输出样本具有相同程度的随机性。熵是随机性的度 
世，每个均匀比特的熵是丨比特，我们希望均匀比特数至少等于输出分布的熵。这点由下面的定 
理得到证实。对于定理的证明，需要一个关于树的引理。表示一棵完全树的所有叶子。考虑 2 D 
所有叶子上的一个分布，使得在树中深度为 A 的每片叶子的概率为2_*。设 Y 是与此分布相应 
的随机变量，那么有如下引理。 

引理 5. 11.1 对任何完全树，考虑所有叶子上的概率分布，使得深 度为々 的每片叶子的概 
率为2 - *,則树的期望深度等于该分布的熵 3 
证明： 树的期望深度为 

ET = E k ( y )2~ kiy) (5-99) 

Y 的分布的熵为 

H { Y )=- E ^7 M^h (5 - 100) 

= i ^ k ( y )2- k ^ (5-101) 

其中 W ： y ) 表示叶子: y 的深度。于是 

H ( Y ) = ET (5-102) 口 

定理 5. 11.1 对任何生成 X 的算法， 期 望均匀比特數的均值大于或等于燏 H ( X )， 即 

ET ^ H ( X ) (5-103) 

证明： 由均匀比特生成 X 的任何算法均可用一棵完全二叉树来表示。将树上的所有叶子标 
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记不同的字符如果树是无限的，则字母表>’亦是无限的。 

现在考虑在树的所有叶子上定义的随机变量 y , 使得对深度为 A 的任一叶子 = y 的概 
率为 2' 由引理5.11.1，树的期望深度等于 Y 的熵 ，即： 

ET ^ H ( Y ) (5-104) 

由于随机变量； C 是 y 的函数(一片或更多的叶子对应于一个输出字符），因此，根据习题 2.4 
的结论，我们有 

Ml H ( XXH ( V ) (5-105) 

于是，对任何生成随机变量 X 的算法，我们有 

H ( X)<£T (5-106 )D 

由同样的讨论，可以回答关于二进分布的最优性问题。 

定理 5.11.2 设随机变量 X 服从的分布是二进制的，則由抛掷均匀硬币生成 X 的最优算法 
需要的期望抛掷次數恰好等于熵 ，即： 

ET = H ( X ) (5-107) 

证明： 定理 5.11.1 已经证明拋掷均匀硬币次数至少需要 H ( X ) 比特以生成 X 。对于树的构 
造部分，使用 X 的赫夫曼码树作为生成随机变童的算法所代表的树。对于二进制分布，赫夫曼 
码与香农码相同，且平均码长都达到熵界。对任何在码树中， x 的对应叶子的深度为相 

应码字的长度 log 因此，当使用该码树生成 X 时，对应的叶子将具有概率 

= />(* r )。 期望拋掷硬币数等于树的期望深度，此时，期望深度又等于熵（由于分布是二迸制的）。 
因此，对服从二进制分布的随机变撖，其 S 优生成箅法满足 

ET = H ( X ) (5-108 )D 

如果分布不是二进制的，情况会怎样？此时，不能采用相同的思路，因为由赫夫曼码树生成 
的所有叶子上的分布是二进制的，已不再是开始给定的分布了。树的所有叶子上的概率具有形 
式2-*，由此可知我们必须将不具有这种形式的概率 P , 分裂成具有该形式的一些原子。然后再 

将这些原子分配给树上的叶子。例如，如果某个结果的概率 〆 1) = |,那么，只需要一个原 

子(树的第2层的叶 子）； 如果/ >( x ) = -~ = y + j + - g -, 那么，需要三个原子分别在树的第1, 2 
和3层。 

为最小化树的期望深度，使用的原子必须具有尽可能大的概率。因此，给定一个概率值 A , 
可以求具有形式且小于/>, 的最大 原子，并将此原子分配给树。然后，计算余数并同样求相应 
岡 于该余数的最大原子。继续此过程，最终我们可将所有的概率值分裂成许多二进制的原子。这 
个处理过程等价于求解概率值的二进制展开式。设概率 A 的二进制展开为 

A = (5-109) 

其中= 或0。于是展开式中的所有原子为= 1，2, …， 

由于=1,从而，所有原子的概率的总和为1。将槪率为的原子分配给树上深度为) 
的叶子。所有原子的深度满足 Kraft 不等式，因此，由定理 5.2.1 可知，总能构造出一棵树，使得 
所有原子在适当深度的位置上。下面的例子可以说明上述程序： 

例 5.11.2 设 X 的分布为 

(a »率为寻 

X = ^ (5-110) 

b 溉率为 f 



可得以 h 概率值的二进制展开 式为: 


(5-111) 


•|* = 0.1010101(^" 2 
+ =0.01010101 … 2 (5-112) 

因此，展开式中的原子为 

1—( 士，音4,…） （5- 113 ) 

（5- 114 ) 

对这些原子进行分配，可得如图 5-8 所示的树。 

该程序可产生生成随机变最 X 的树。前面已经讨论过，此 
过程是最优的(给出的树具有最小期望深度），但我们将不给出 / \ 

严格的证明，而是估计此程序生成的树的期望深度的取值范围。 / \ _ 

定理 5.11.3 生成随机变量 X 的最优算法所需的均匀比 
特數的期望值在 H ( X ) 和 WX )+2 之间： ° 

H ( X )< ET < H ( X )+2 (5-115) b > 

证明： 关于抛掷硬币的期®次数的下界已由定理 5.11.1 
得到证明。对于上界，对上面所述程序所需的硬币期望拋掷数图 5-8 生成分布 ( + ) 的树 III 

给出一个显表达式。将概率(仏，/^，…， /)„) 分裂成二进制的原 
子， 例如， 

Pi — …） （5-116) 

等等。利用这些原 7 H 它们形成二进制分布）可以构造出一棵树，其树的叶子对应于其中的每一 
个原子。硬币期望拋掷数就是树的期望深度，也就是原子的二进制分布的熵。故， 

ET = H ( Y ) (5-117) 

其中 y 的分布为(冲〉,/^, •• •，/由于 x 是 y 的函数，则有 

H(y) = my,x) = h(x) + h(vix) (5-118) [T39 

因此只需证明 H ( y | x )<2。 下面给出结论的代数证明。将 y 的熵展开，由于对每个原子，存在 
某个 I 使其概率为0或2_\则 

H ( Y ) =- ES P ^ ogp ^ (5-119) 

_ 

= S S i^ J (5-120) 

在展开式中考虑对应 于:’ 的每一项，记为 T , : 

Ti = S >2-> 

易知存在某个 n , 使 2—”_ n > A >2_” ，或 

n -1< - logA<n 

于是，当»；1时才有可能 pfX ), 因此，式 (5421) 可重新写成 

. = E >2-> 

由原子的定义，可将 Pi 展开成 

Pi = E 2-> (5-124) 


(5-121) 

(5-122) 

(5-123) 
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为证明上界，首先证明 丁,<-/^0^+2 〜考虑差 

T, + pMP, -2a <T f -a(^-1)-2a 

= T , - (w - 1 + 2) p , 

=H J2~ j - (n + 1) 



(5-125) 

(5-126) 

(5-127) 


1)2 


(5-128) 

(5-129) 

(5-130) 

(5-131) 


=s 0 - ^ - 02-> 

>0 

= - 2 _ ” + 0 + 2 0 
二一2-”+ S 々2 

k >0 

< - 2-- + S w ” +1 
*：*>! 

=- 2 '"+ 2" ( " m) 2 
= 0 

其中 ( a ) 可 6 式(5_122)得到， （ b ) ifiil 对求和变 tt 进行顿 即可，而 ( e 懦扩大求喊刚卩可得到。 
因此，证得 

T,< - AlogA + 2A 

由于£了 = St ,. 即可得 

ETC - ^PiVygpi + 2 SA = H ( X ) + 2 


(5-132) 

(5-133) 


(5-134) 


至此定理得证。 ^ 

于是，平均拋掷 H(X)+2 次硬币就足够模拟随机变钕乂 J 

要点 

Kraft 不等式即时码 ㈡ 
McMillan 不等式惟一可译码 

数据压缩的熵界 


(5-135) 

□ 
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L=Sp^H D (X) 

(5-136) 

香农码 

/•= 「 _ 会 1 

(5-137) 

H d (X)<L<H d (X) + 1 

霸 <5438) 

赫 夫曼码 

L • = min 'Hpjii 

戀 !: (s-m) 

H 0 (X)<L-<H d (X) + 1 

(5-140) 

偏辑 X-p(x) 9 l(x)=[ log^y"| ， L=EpU)/U): 


H(p) + D (/ >11 q)<L<H(p) + D(p 1U) + 1 

(5441) 





数据压缩 
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随 机过程 

Wm) ^ L < H(X I> X 2t - > Xj t 1 
n n n n 

平稳过程 

Ln^H(Af) 

竞争最优性/(^0 = |"1^^ 5 "|(香农编码)与其他任何编码的/ > (： 1 ：)比较 

PTU(x)>r(x)^c)<^n 


(5-142) 


(5-143) 


(5444) 


习题 


5.1 惟一可译码与即时码 。考虑随机变 fi X 的编码，设 L = A /! 00 为码字长度的100 次麻 

的期望值。设 M = minL , 在所有即时码中 进行； L 2 = minL . 在所有惟一可译码上进行 。 M 
和乙 2 存在怎样的不等关系？ [142 

5.2 火星人有多少个手栺头？设 

s= 卜…，叫 

( fil， …， Pml 

将所有 S , •以惟一可译码方式编码成 D 元字母表的字符串。若 m =6并且码字长度为 （/ i , 

/ 2 ，…，/ 6 ) = (1,1,2,3,2,3>,请估计 D 的一个好下界。至此尝试解释该习题的标题。 

5.3 Kraft 不 等式的 成弱。即时码的码字长度/ 2 ，…， / m 满足严格的不等式 

£/ r (< 1 

码的字母表为!>= 10,1,2,…， D - 11。 i 明 P •中存在猗任意长的编码字符序列，使其不能 
译为码宇序列。 

5.4 赫夫曼 码。考虑随机变 tt 


X= L 二9 


x 2 x 3 X 4 X 5 x 6 x 7 ' 
0.26 0.12 0.04 0.04 0.03 0.02； 


( a ) 求 X 的二元赫夫曼码。 

( b ) 求该编码的期望码长。 .. 

( c ) 求 X 的三元赫夫曼码。 

5.5 一 码多用的赫夫曼码。 某信源的概率分布为 （1/3, 1/5, 1/5,2/15,2/15), 试求其二元赫夫曼 
码。并讨论所得的码对概率分布为（1/5，1/5,1/5,1/5, 1/5) 的信源也是最优的。 

5.6 坏码。 请问下列哪些码对于任何槪率分布均不可能成为赫夫曼码？ 

( a ) 10,10,111 

( b ) 100,01,10,1101 

( c ) 101,101 

5.7 枯夫曼 20 问题。 考虑 ri 件物品组成的集合。根据第 I •件物品合格或是次品，分别设 X , = l 
或0。设相互独立， Pr | X , = lt = A ； 并且 …〉 A »> +。 现在利用 

提问方案确定所有的次品集，任何能想到的是否型问題均许可。. 

( a ) 请估计所需 M 小期望问題数的一个好下界。 
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( b ) 当解决我们的问題需要最长的问题序列时，那么应该问的最后一个问题是什么(用文字 
表述)？利用此问题可以区别开哪两个集合？假定讨论的是紧凑(具有最小期望长度）问 
題序列。 

( c ) 给出所需问题的最小平均数的上界(用不超过1个问题）。 

5.8 马尔可夫信源的简单最优压缩。 考虑三状态的马尔可夫过程 U lt U 2 ,-, 其转移矩阵为 
由表可知，由 S 3 转移到&的概率为零。清设计3 
个编码(分别对应各状态1, 2, 3), 且每 
个码将 IShSpSJ 中的各元素映射为0和1的序 
列，使得用如下方案可以最大程度压缩来发送该马 
尔可夫过程 信号： 

( a ) 注意当前的字符为 U n = i 0 

( b ) 选择编码 C ；。 

( c ) 注意到下一个字符为 U ””= j ， 则发送编码 C , 中对应 j 的码字。 

( d ) 对于下一个字符，重复'以上步骤。若使用上述编码方案，在前状态 = i 的条件下， 
下一个字符的平均码长为多少？无条件期望码长为多少比特每字符？将此与马尔可夫 
链的熵率 H 0/) 联系起来。 

5.9 大于熵约 1 比特的最优码长。 信源编码定理表明，随机变童 X 的最优码的期望长度小于 
只(；0 + 1。请列举出一个随机变®，要求其最优码的期望长度近似等于 mx ) + i , 即对任 
意 £ >0,试构造一个分布，使其 M 优码的期望长度满足 L > H ( X ) + 1 - “ 

5.10 达到熵界的三元码。 设随机变贵: V 取 m 个值，熵为//( X )。假定已求得该信源的三元即 
时码，其平均长度为 

L = ^^ = H 3 ( X ) (5-145) 

( a ) 证明 X 的每个字符的槪率，对某个；均具有形式3 —。 

( b ) 证明 m 为奇数。 

5.11 后級 条件。 满足后缀条件的编码指无一码字是其他任何码字的后缀。试证明满足后缀条 
件的编码是惟一可译的，并证明满足后缀条件的所有编码的最小平均码长等于该随机变 
»的赫夫曼编码的平均长度。 

5.12 香农码与赫夫曼码。 设随机变量: V 取 4 个值，其概率分布为 , 垚)。 

( a ) 请构造此随机变最的赫夫曼码。 

( b ) 证明存在两个不同的码字最优长度集，即证明码字长度分配 (1,2, 3,3)和 (2, 2,2, 2) 均 
是最优的。 

( c ) 由此可知，某些最优码的一些字符的相应码长有可能超过香农码的相应码长 

「 lQg 志1。 

5.13 20问題。参赛者 A 在总体中抽取一物品，而参赛者 B 试图通过是否型的问题确认是什么 
物品。对于参赛者 A 抽取物品的分布，假定参赛者 B 足够聪明可以想出一个编码，使其编 
码的期望长度达到最小。注意到参赛者 B 期望需要 38.5 个问题才能确定 A 所抽取的物 
品。试给出总体中物品个数的一个粗略下界。 

赫夫 曼码。 设随机变 MX 的概率为 



5.14 



丄 2. 1 A i . 
p ~ \2 V 2 V 2 V 2\'2 V 2 \I 


试求其 ( a ) 二元和 ( b ) 三元赫夫曼编码。 

( c ) 计算以上每种情形的 L = SPA 。 

15 赫夫曼码 

( a ) 对下列定义5个字符的 分布: p =(0. 3, 0.3,0.2,0.1,0.1), 构造一个二元赫夫曼码。 
并求出该码的平均长度。 

( b ) 构造一个5字符槪率分布 p , 使得 ( a ) 中构造出来的那个码关于 p 的平均长度恰为熵 
H(p ) 0 

.16 赫夫曼码。 考虑随机变量 X ,取6个值其概率依次为 0.5, 0.25, 
0.1, 0.05, 0.05 和0.05。 

( a ) 构造该随机变 tt 的二元赫夫曼码。其期望长度是多少？ 

( b ) 构造该随机 变最的 四元赫夫曼码(即在四元字母表(不妨说它们是 a , b , (:和 d ) 上的编 
码〉。 其期望长度是多少？ 

( c ) 构造该随机变量的二元赫夫曼码的另一种方法是，从一个四元码出发，利用 映射： 

00, ^-01, c - HO 和11将字符变换成二迸制数字。那么由此过程构造出来的二元 
码的平均长度是多少？ 

( d ) 对任意随机变贵 X ,设 L „ 为该随机变最的二元赫夫曼码的平均长度，设 Lqb 为先构 
造一个四元赫夫婪码，冉变换成二元赫夫曼码所得编码的平均长度。证明 

Lh ^ Lqb < Ln + 2 (5-146) 

( e ) 该例子的下界是紧致的。举例说明由最优四元赫夫曼码变换而来的编码也是最优二元 
码。 

(0 上界（即 + 并不紧致。亊实上，较好的上界应该是 LgegLH + l 。 证明这个 
上界，并举例说明该上界是紧致的。 

5.17 数据压缩。 对于下列每个概率密度函数的即时码，分别找出二元码宇长 / n / 2 …（使 SAA 
最小化)的员优集。 

(b) p = (^*(S)(^)»(w)(w) 2 »(w)(w) 3 ^) 

.18 码的种类。 考虑码10,011 

( a ) 它是即时的吗？ 

( b ) 它是惟一可译的吗？ 

( c ) 它是非奇异的吗？ 

• 19 高低游戏 

( a ) 一台计算机根据已知槪率密度函数 p (： r ) 产生一个数 X ，其中丨1，2,"‘，100|。参 
赛者提出 问题： “ X =, 吗? ”，得到的回答有“是”，“猜高了”或“猜低了”。他连续问6 
个问题。若在此过程中，他猜对了（即他获得了一个回答“是”），就可获得奖金 WX )。 
问这名参赛者该如何进行才能贏得最大的期望奖金额？ 

( b ) 实际上，上述问题与信息论并没有多大关系。考虑如下 变童： 奖金= 
v ( x ) t 其中 pU ) 已知如前所述。现在提出任 意的是 否型问题直至 X 被确定为止。 
(这里“被确定”并不意味着参赛者获得了“是”的回答。)每个问题的成本均是1个单位。 
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问参赛者该如何进行？他能获得的期望回报是多少？ 

( c ) 继续 ( b )， 若 t ；( x ) 固定，但由计算机随机确定（然后向参赛者宣布），结果又如 
何？计算机希望让参赛者得到的期望回报最小，那么/ >( x ) 该是什么？此时参赛者的 
期望回报是多少？ 

5.20 带价值的赫夫曼码。 单词如 Run !, Help ! 和 Fire ! 很简短，不是因为它们经常被使用，而多 
半是因为在需要用到这些词的场合中时间宝贵的缘故。假定 X = z ’的概率为/>,，〗 =1, 
2,…， m 。 设/,为乂 = f 对应码字的比 特数， q 表示当 X = /时，码字的每字母价值。于是 

对 X 描述的平均价值为 C = 从。 

( a ) 在满足的所有/,,/ 2 ,…， / m 上，对 C 进行最小化。忽略对/,的默认整数限 
制，试求 c 达到最小值时的 /r ,/ f ，…， r m 及相 应的* 小值 ( T 。 

( b ) 在所有惟一可译码范围内，如何利用赫夫曼编码程序以最小化 C ? 记表示这个 

M 巌小值。 

( c ) 请证明 

5.21 惟一可译性的成立条件。证 明：码 C 是惟一可译的充分（必要）条件是对任意的々>1,展 
开式 

C ^( xi f x 2 f — fX k ) = C ( xi ) C ( x 2 )- , C ( x k ) 

是到 D •的 1-1 映射。（“必要”性是显然的 

5.22 最优码的平均长度。 证明： 对于槪率分布，…， AJ 的 ft 优 D 元前缀码，其期望码长 
…， AJ 必为 p x ， …， 的连续函数。 麥 实上，尽管概率分布变动，最优码的具体形 
式并不连续变化。 

5.23 未利用的编码序列。 设 C 为变长码，满足 Kraft 不等式且等号成立，但不满足前缀条件。 

( a ) 证明：存在宇母表上的某个有限宇符序列，它不是任何码宇序列的前缀。 

( b ) (选做)证明或 否定： C 具有无限译码延迟性质。 

5.24 均勾分 布的最优码。考虑拥有 m 个 等槪率结果的随机变 tt 。 显然此信源的熵为 bg 2 w 比 
特。 

( a ) 请描述此信源的最优即时二元码，并计算其平均码长乙_。 

( b ) 哪些 m 值可使平均码长等于熵 H = log 2 m ? 

( c ) 我们已经知道对任意的概率分布，均有 L < H -^ lo 定义变 K 码的冗 余度为 P = L - 
H 0 对怎样的 m 值，编码冗余度可达到最大，其中当 m — oo 时，最坏 
情形下冗余度的极限值是什么？ 

5.25 最优码长。虽然最优变长码的码字长度是消息槪率分布1化，/»2,…，的复杂函数，但可 
[ H 8 j 以说其中较小槪率的字符会编码成较长的码字。假定消息的概率分布以递减的顺序给出 

( a ) 证明： 对任意的二元赫夫曼码，如果最可能出现的消息字符的概率 Pi >2/5, 则该字 
符分配的码字长度必为 U 

( b ) 证明： 对任意的二元赫夫曼码，如果最可能出现的消息字符的概率则必须 
要求分配该字符的码字长度 >2。 

5.26 合并。 将资产分别为 Wi , W 2 , …， 的公司以如下方式合并。首先合并其中的两个资产 
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最小的公司，于是形成 // I -1 个公司。合并 后的资 产是被合并的两个公司资产之和。继续 
此过程，直至仅剩一个子公司为止。设 V 等于所有合并的资产的累计和。于是 V 表示在 
合并过程中所呈报的资产的总和。例如，若 W =(3,3,2,2), 合并产生(3,3,2,2)一 (4,3, 
3)— (6,4)- ►(10), 从而 V = 4 + 6+10 = 20。 

(a) 说明对于由两两合并而终结于一个超大型公司的所有序列过程，V是可达的最小资 
产。（提 示： 请^赫夫曼编码比较。） 

( b ) 设 W=ZW i 9 W,= W,/W, ^明最小合并^^累计和 V 满足 

WH(W)<V<WH(W) + W (5-147) 

5.27 惟一可译性的 Sarding^Pattereon 检验。 当且仅当存在编码字符的一个有限序列，它能以两 
种不同方式分解为两个码字序列时，编码不是惟一可译的。即出现下列情形 


1 义 

丄 

火 1 

七 .. 

夂 1 

1 B ] 1 

b 2 

1 ~ bT 

••• 



其中出现的每个和均表示一个码字。注意到 A 必定为的前缀，而的剩余部 
分为^的“悬空后缀 ” (dangling suffix )。 每个悬空后缀依次是某个码字的前缀，或者存在 
某个码字以它为前缀，同时又是另一码字的悬空后缀。最后，序列中最末的悬空后缀必定 
是个码字。由此，按照如 F 方式可以设计出一个关于惟一可译性的检验（这本质上就是 
Sardings ^ PaUerson 检验 [456]): 构造由所有可能的悬空后缀组成的集合 S 。 编码是惟一可 [BE 
译的当且仅当 S 不含任何码字。 

( a ) 说明求集合 S 的具体细则。 

( b ) 假定码字长度分别为/,, * = 1,2, …， m 。 试估计集合 S 的元索个数的一个好上界。 

( c ) 确定以下编码中哪些是惟一可 译的： 

(0 10, 10, 111 

( ii ) 10, 01, 111 

( iii ) 10, 01, 101 

( iv ) 10, 011 

( v ) 100, 01, 10, 111 

( vi ) UlO , 11， 101 

( vii ) 1110, 11， 100 , 00, 101 

( d ) 对于 ( c ) 中的任意惟一可译码，若有可能，请构造出一个起始于某个已知初始点的无限 
编码序列，使其能以两种不同方式分解为码字序列。（这说明惟一可译性并不蕴含无 
限可译性)并证明这样的序列不可能在前缀码情形中出现。 

5.28 香农码。设随机变 MX 取 m 个值11,2,…， ml , 概率分布为…， /> m 。 假定概率值排 
列序为/… 考虑如下对 X 编码的生成方法。定义 

F , = Efik (5-148) 

为所有小于的宇符的概率之和。对尸,€[0，1]进行舍入，保留/,比特作为/的码字，其 

中 —「log 女 1 。 

( a ) 证明由此过程构造出来的编码是无前缀的，且平均长度满足 

H ( X )< L < H ( X ) + 1 (5-149) 

( b ) 请根据上述方法构造概率分布 (0.5,0.25,0.125,0.125) 的编码。 IM 
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5.29 二进制分布的最优码。对于赫夫曼码树，定义节点的概率为该节点以下所有叶子的概率 
总和。设随机变 MX 服从一个二进制分布，即对所有的 lev , 存在某个 i , 使 〆 : r )= 
2 _ f 。 现在考虑该分布的二元赫夫曼码。 

( a ) 讨论对于树中的任何节点，其左边的孩子节点的概率等于右边孩子节点的概率。 

( b ) 设 X '， X 2 , …， X „ 为 i . i . d . 〜 pU >， 由 /> U ) 的赫夫曼码，可将 X It X 2 , -, X n 映射成 
二元序列 Yph ，…，（该序列的长度依赖于结果 u 2 ，…， x „。) 利用 
U ) 证明序列 Y 2 ，…形 成由抛'掷均匀硬币所产生的序列，即 Prly - Ol ^ Priy - 

l |= y , 而独立于 Yh 匕，…， Y , m 。 于是，被编码的序列的熵率为 1 比特/字符。 

( c ) 对于任何达到熵界的编码，其编码的比特序列是不能再被压缩的，因此其熵率也就为 
1 比特每字符。为什么？给出一个有启发性的讨论。 

5.30 相对熵是偏码的代价。设随机变* X 具有5种可能的结果11,2,3,4,51,考虑该随机变* 
的两个分布/ >( x ) 与 gU )。 


字符 





C,(x) C 2 U) 


0 

0 

10 

100 

110 

101 

1110 

110 

1111 

111 


ill 

5.31 


( a ) 计算 H (/>), H ( q) t D ( p \\ (?) 和 D ( q \\ p ) 0 

( b ) 表中最后两列是随 机变敏 的两个编码。验证关于/>的平均长度为熵 H ( p )。 于是， 
C , 关于/>是最优的。验证 C 2 关于 (7 也是最优的。 

( c ) 假如分布为/»,使用编码 C 2 , 那么码字的平均长度是多少？超出熵 H ( p ) 多少? 

( d ) 当分布为 g 时，如果使用码那么损失多大？ 

非奇异码。在正文中，主要集中在即时码以及扩展为惟一可译码的讨论。这两种情形都要 
求码可以重复地用来编码随机变量的状态序列。但是，如果只需要编码一个状态，并且知 
道何时到达了码字的末端，那么就+需要惟一可译性。亊实上，码是非奇异的就足够了。 
例如，若随机变最 X 取三 个值： a,b 与 c, 我们可以将它们编码为： 0,1 和 00 。这个码是非 


奇异的，但不是惟一可译码。 

下面假设随机变量 X 取 m 个值，槪率分别为/ > i ， p 2 , …， /> m ， 并且其概率分布按降序排列： 
P\^P>Pm 。 

( a ) 将非奇异二元码视为三个字符0, 1和 STOP 的三元码，证明随机变量X的非奇异码 


的期望长度 L 1:1 满足下面的不 等式： 


(5-150) 


其中， H 2 (X) 是X的熵，单位为比特。于是，非奇异码的平均长度与即时码的平均长 


度至少相差一个比例常数。 





( b ) 设为 ft 佳即时码的期望长度 ， O X 的最佳非奇异码的期望长度，证明 

( c ) 给出非奇异码的期望长度小于熵的一个简单例子。 

( d ) 对非奇异码可行的码字 集为： 10，1，00,01,10，11，0&0,*”|。证明：如果将最短的码字分 

配给概率最大的字符，那么达到最小值。于是 ，有“ =/ 2 = 1, 1 3 = 1 4 

• *1 

=/ 5 = / 6 = 2,等等。证明码字长度的通项公式为/, =「 log (士 + 1 )"], 因而 Lr :1 = 

S P,f * og(y + 0"|。 

( e ) i(d) 中已经表明很容易找出分布的最优非奇异码。只不过在处理平均长度时需要有 
点技巧。现在来估计这个平均长度的界。从 （ d ) 可以推出 Lr :1 > £ A [ TS2l 

§ p，r iog (++ i )" i 。 考虑下面的差值 

F ( p ) = H ( X)-L =- IJp.logA - SAlog (音 + 1) (5-151) 

用拉格朗日乘子法证明 F ( p ) 的最大值在 p , = c /( i +2) 达到，其中 c = l /( H m + 2 - 
H 2 ), 冰是调和级数 

H * =2 4 - (5-152) 

<•1 1 

(这也可以利用相对熵的非负性完成。） 

(0 继续证明如下不 等式： 

H ( X )- Lr ,< H ( X)-L (5-153) 

< log (2( H m +2 - H 2 )) (5-154) 

作为常识，我们知道仏〜 InM 见 Kmuh [315])( 更为精确的表达式是 H * = ln ^+ y +^ 

+ 其中0<€<1/252；1 6 , 7 =欧拉常数 = 0.577 …）。 利用该公式或者 

简化的近似 + 此不等式可以通过士的积分得到证明。因此，可以推出 

H ( X )- L ； ：1 < loglogm +2 o 于是，我们得到 

H ( X )- loglogl^l -2< Lr ：,< H ( X ) + l (5-155) 

这表明，非奇异码不可能比即时码表现得更好。 

5.32 坏葡萄酒。 有6瓶葡萄酒，已知其中的一瓶已经坏了（变味）。通过观察酒瓶，可以判定第 
£瓶是坏酒的概率为 a ， 其中 = 而且通过品尝可 

以完全确定哪瓶是坏酒。假如你每次品尝一瓶。请选择品尝的顺序使得找出那瓶坏酒的_ 
期望次数最小。记住，如果前5瓶品尝都通过了，那么第6瓶就不必再品尝了。 

( a ) 需要品尝的期望次数是多少？ 

( b ) 哪瓶酒应该最先品尝？ 

现在你学机灵了。在第一次采样时，取几瓶酒的样本混合倒人一只干净的玻璃杯中。然 
后，对这个混合样本进行品尝。如此继续，混合再品尝，直到发现了坏酒后停止。 

( a ) 为确定哪瓶是坏酒，需要品尝的最小期望次数是多少？ 




( b ) 该首先品尝哪种混合情形？ 

5.33 赫夫曼与 香农。 设随机变量 X 取三个值，其概率分别为0.6, 0.3 和0.1。 

( a ) X 的二元赫夫曼码的码字长度是多少？ X 的二元香农码的码字长度 

又是多少？ 

( b ) 求最小整数 D , 使得 D 元字母表的香农码与赫夫曼码的期望码字长度相等。 

5.34 树构造的赫夫曼算法。 考虑如下 问题： 假设在时刻获得了 m 个二元信 
号5 1 ,5 2 ,“*,5„ | ，通过两输入门 （twoinput gate ) 求它们的和 ㊉ … ㊉ < S m ， 每个门都有 
一个时间单位滞后，尽可能快地获得最终结果。一种简单的贪婪算法是将时间最早的两 
个结果组合，也就是在时刻 1 X 18 X 1^,721 + 1得到部分结果。这样产生了新的问题，即在 
时刻 maxlT ^ T^I +1, 丁 3 ,…，丁„获得的信号,心。然后，对时间列 表了进 
行排序，同时应用以上的合并程序，重复这个过程，直到获得最终结果。 

( a ) 讨论，从速度方面讲上述程序是最优的，这是因为该方法构造的线路使得最终结果的 
获得速度尽可能快。 

( b ) 证明该程序找到的树使得下列目标函数最小化 

C ( T ) = max ( T t + / l ) (5-156) 

[1|4] 其中，7；为对应于第 i 个叶子的结果的获彳 b 时间，/,为第；个叶子到根的路径长度。 

( c ) 证明： 对于任意树了，均有 

C ⑺ > log 2 ( X 2 T .) (5-157) 

( d ) 证明存在一棵树，使得 

C ( T ) < log 2( E 2 T .)+ 1 (5-158) 


于是，在此问题中， lofod ] 7 '.) 是与熵对应的 Mo 

I 

随机变量的生成。 如果想生成一个 随机变 MX, 使得 

HI (5-159) 

*0 槪率为1 - p 

你拋掷均匀硬币得到序列 A , Z 2 ，…，，其中 N 是生成随机变 MX 所需要的拋掷次数 
(随机的）。 清 找出一种利用 Z N 生成 X 的好方法。证明 EN <2。 

最优码字长度 

( a ) / = (1,2,3) 可以作二元赫夫曼码的码字长度吗？（2,2,3,3)呢？ 

( b ) 什么样的码字长度 /^(/ p /2, …)来自于二元赫夫曼码？ 

码。下列哪些码是 

( a ) 惟一可译的？ •' 

( b ) 即时的？ 

Q= 100,01,01 
C 2 = 100,01,100,101,111 
C 3 = (0,10,110,1110,-1 
C 4 = 10,00,000,00001 







5.44 赫夫曼。求的最优二元编码的码字长度。 

5.45 随机 20 问題。 设 X 为11，2,3,…， ml 上的均匀分布，假定 m =2 n 。 我们随机提问： 

S ,? xes 2 ? 直至仅剩下一个整数为止。11,2,3,-,爪|中的所有2〃个子集5被问 

到的概率是相同的。 

( a ) 不失一般性，假设 X = 1 是该随机目标，那么目标2与目标1对々个问题具有相同答 
案的概率为多少？ 

( b ) 在 U , 3,…， ml 中，与正确目标1具有相同问题答案的期望目标数是多少？ 

( c ) 假设我们提问个随机问题。与答案一致的错误目标期望数是多少？ 

( d ) 利用马尔可夫不等式证明当时，误差概率（即还剩余一个或多 
个错误目标)趋于0。 

历史回顾 


_ 本章中有关索材的基本知识均可在香农的开创性论文 [469] 中找寻到，其中有香农信源编码 

" 定理及有关编码的几个例子。他在论文中说明了一个简单的编码构造过程（见习题 5.28 所述）， 

这对费诺的影响很大，现在该方法已称为香农-费诺编码构造程序。 

关于惟一可译码的 Kraft 不等式首先是 McMillan [385] 给予证明的；而书中给出的证明归功 
于 Karush [306 ]o 赫夫曼编码程序首先由赫夫曼 [283] 发现并给予证明其是最优的。 

在揿近几年中，相当多的研究兴趣集中在如何设计信源编码，使之符合特殊的应用目的，如 
磁记录。在这样的情形下，目的就是设计出好的编码，使得输出序列满足一定的性质。这个主题 
的某些结论在 Franazek [219], Adler et al . [5] 及 Marcus [370] 中均有所 论述。 

算术编码程序对于 Elias 所论述的香农-费诺编码（未发表）起宥根本性的作用，且 Jelinek 
[297] 对此进行了分析。在文中所述的无前缀码构造程序得归功于 Gilbert 和 Moore [ 249] 0 
Shannon-FanoElias 方法能够扩展到序列是基于 Cov er [120] 中提到的枚举方法，并且用来刻_ 
Pasco [414] 以及 Rissanen [441] 中提到的有限精度算法。香农码的竞争最优性已被证明，见 Cover 
[125], 并且推广到赫夫曼码，见 Feder [203]。5. 11节中的源自抛掷均匀硬币过程的离散分布生 
T 58] 成问题得益于 Knuth 和 Yao [317] 的研究工作。 


第 6 章博弈与数据压缩 


乍看起来，信息论与博弈似乎风马年不相及。然而，正如我们将要看到的，赛马中的投资增 
长率与赛马的熵率之间有很强的对偶性。因为增长率与熵率之和为常数。为了证明这个结论，将 
涉及如何证明边信息的金融价值等于赛马与边信息之间的互信息。从投资的角度看，赛马是股票 
市场的特殊情形，将在第16章讨论。 

我们也将揭示如何使用两个完全相同的马民在一系列下注过程中的相对收益（简称收益）累 
il •增长率来压缩随机变最序列。最后，我们利用这些博弈策略来估计英文的烟 i 率。 

6.1 赛马 

假设在一场赛马中有 m 匹马参赛，令第 》• 匹参赛马获胜的概率为 A 。 如果第丨匹马获胜，那 
么机会收益为 o , 比 1( 即在第匹马上每投资一美元，如果贏了，会得到美元的 收益； 如果输 
了，那么回报为0)。 

有两种流行的 马票： a 兑1 ( a - for - l ) 和6 賒 1 (6- u > l )。 第一种是指在幵赛前购买的马 
票——马民赛前用一美元现金来购买一张机会收益为 a 美元的马票，一旦他的马票对应的马在 
比赛中贏了，那么他持有的那只马票在赛后兑换 a 美元，否则，他的马票分文不值。而第二种马 
栗是在赛后交割的，机会收益为心1, 一旦他的马票对应的马输了，该马民赛后必须去交纳一美 
元的本金。如果嬴 f ,赛后可以领取6美元。所以，当6〜-1时， a 兑1 与6赊1两种马票的 
机会收益等价。例如，掷硬币的公平机会收益倍数是2兑1或者1 賒 1,其他则认为是平 等机会 [Hi 
收益倍数 

假设某马民将其资金分散购买所有参赛的马匹的马票，6表示其下注 在第〗 匹马的资金占总 
资金的比例，那么化>0且 S 6, = l 。 如果第 f 匹马获胜，那么该马民获得的回报是下注在；匹马 
的资金的0,倍，而下注在其他马匹上的资金全部输掉。于是，赛马结束时，如果第匹马获胜， 

那么该马民最终所得的资产为原始财富乘以因子而且这样发生的概率为 A 。 为了记号方 
便，我们将在本章中交替使用 6,. 与 6(0, 而不加区别。 

收益在比赛结束时是一个随机变贵，马民希望该随机变 M 的值“最大化”。马民希望将所有资 
金购买其认为能够获胜的同一匹马的马票，以期获得最大的回报(此时最大回报应为 PiOi ) o 但这 
样做显然是充满风险的，很有可能将所有钱一次都输光。 

考虑到马民可以在赛马中反复下注，我们可以得到一些显然的结果。假设马民把所有资金不 
断重复地购买马票，那么他的收益就是每次比赛中利润的乘积。令\为该马民在第”场赛马结 
束时的资产，那么 

S n = nS ( X .) (6-1) 

其中 S(X) = 6( ； C) 0 (；0 是当第 X 匹马获胜时/马民构买该只马票所得收益的乘积因子。 

定义相对收益 SU ) = 6 U ) 0 ( X ) 是一个乘积因子，如果马民中了 X 马票， 那么他的相对 
收益就是原始财富乘以该因子。 

定义一场赛马的双倍车为 
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W(b，p) = E(logS(X)) = E/>*log6*o* (6-2) 

双倍率的定义的合理性由如下定理给出。 

定理 6.1.1 假设赛马的结果为服从 / Kz ) 的独立同分布序列，那么，该马民 
在策略 b 之下的相对收益将以指数因子为 W(b,p) 呈指数增长，即 

S B =2" w(b ' p, (6-3) 

证明： 由于独立的随机变童的函数仍然是独立的，从而 logSUiUogSUA^logSUJte 
是独立同分布的。由弱大数定律可得， 

J-logS,, = 1 l]logS(X ,)-£( k « S ( X )) 依概率 (6-4) 

n n iml 

于是， 

S„=2" W(bp) (6-5)D 

由于马民的相对收益是按照 2” w(bp> 方式增长，因此，接下来是如何在所有投资组合策略 b 
的集合中寻找到使得 W(b，p) 最大化的策略。 

定义 如果选择 b 使得双倍率 VV(b，p) 达到 M 大值 W(p)， 那么称该值为 最优双 倍率： 


[\ 6 \ 


W m (p) = n^xW(b，p) = ^ § p^ogbfii (6-6) 

W(b，p) 作为 b 的函数，在约束条件26 = 1之下求兵最大值。可以写出如下拉格朗日乘子函 


数并且改变对数的基底（这不影响最大化 b> ，则有， 


J(b) = S A \nbpi + 

(6-7) 

关于乂 求导得到 


|/- = ^ + A,: = l，2, …， w 

A bi 

(6-8) 

为了求得嫩大值，令偏导数为0,从而得出 



(6-9) 


将它们带入约束条件= 1 可得到 A = - 1 以及 6, = A 。 从而，我们得到 b = p 为函数 J(b) 的驻 
点。我们不是利用二阶导数来判定它是否为最大值点，因为那样太麻烦。取而代之，使用揭：平常 
的 方法： 先猜测后验证。我们将在下面定理中证明按照比例 b = p 下注是 M 优的 策略。 按比例下 
注称为 Kelly 博弈 [308]。 

定理 6.1.2( 按比例下注是对数最优化的）最优化双倍牟的公式计算如下 

W ' (p) = Sp.Iogo, - H(p) (6-10) 


并且按比例 IT = p 的下注策略可以达到该值。 

证明： 我们将函数 vv ( b , p ) 重新改写，使得容易看出何时取最大值： 

W ( b , p ) = b i°i (641) 

= SAlog(» (M2) 

= 2 A logo, - H(p) - D(p II b) (6-13) 

<Zp,logo,-H(p) (6-14) 

等号成立的充要条件是 b = p (即马民应该按照每匹马获胜的概率按比例分散地购买马票）。 口 
例 6.1.1 考虑仅有两匹马参赛的特殊情形。假设马1获胜的概率为/>1，马2获胜的概率为 
p 2o 假设两匹马的机会收益率均等（即两只马票均为2兑1方式）。此时的最优下注方法为按概 
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率比例下注，即& =化， 6 2 =户 2 。而最优双倍率为 W*(p) = SAk«o t -H(p) = 1-H(p), 按照这 
样的增长率，将导致相对收益无限增长： 

S ” 士2” (卜 H(p ” (6-15) 

于是，我们证明了对于一系列独立同分布的赛马，如果马民将其全部现金反复购买马票而不 
是捂住现金不动，那么按比例下注是相对收益增长最快的策略。 

接下来我们考虑一种特殊情形，即关于某种分布具有公平机会收益倍率的情形。换言之，除 
了知道 = 1 之外，无其他信息可用。此时，记 n = l/o i9 将其视为参赛马匹的一种概率密度 [162 
函数（这是用来估计赛马获胜槪率的所谓马民法）。在此记号之下，双倍率可以写为 


W ( b , p ) = 

(6-16) 


(6-17) 

= D(p || r )- D ( p || b ) 

(6-18) 


该方程给出了相对熵距离的另一个 解释： 双倍率正好是马民法的估计到真实分布的距离与马民 
下注策略到真实分布的距离之间的差值。所以，马民要嫌钱，只有当他的估计(由 b 表示）比马民 
法所得的估计更好。 

一种更特殊的情 形是： 如果每只马票的机会收益倍率为 m 兑1。此时，机会收益均等，服从 
均匀分布且域优双倍率为 

W. (p) = D(p || 士 ) = logw - f/(p) (6-19) 

在此悄形下可以淸楚地看出数据压缩与双倍率之间的对偶关系。 

定理 6. 1.3( 守恒定理）对于均匀的公平杌会收益倍牟， 

W * (p) + H(p) = logm (6-20) 

于是，双倍率与熵率之和为常数。 

熵每减少一比特，马民的收益就翻一番。所以在熵越小的比赛中，马民的获利越丰厚。 

在上述分析中，假设马民倾囊投资。一般来讲，应当允许马民有选择地保留一部分现金。令 
_ 为原始财富中预留为现金的比例，6(1〉， 6(2),"., 为分别昀买每匹马的马票的资金比 
例。那么在 赛枣结 束时，最终资产与原始財富的比例（即相对 收益） 为 

S(X) = 6(0) + 6(X)o(X) (6-21) 

此时的最优化策略依赖于机会收益，可能并不是按比例购买马票这种单一形式。我们将通过下面 
三种情况进行讨论： 

1. 服从某种分布的公平机会收 兹倍芈 ：2丄=1 。 对于公平机会收益倍率，保留现金的选择 

0, 

并不影响分析。因为我们可以在保留现金的情况下按 七， i = U2, …， m 比例下注在 

第匹马得到的效果是相同的。此时 S(X) = 1 与到底哪只马票能够获胜没有关系。于是, 
马民到底保存多少现金没有什么关系，该部分现金等同于马民按比购买了每只马票。从 
而要求马民必须将资金全部下注的假设并不会影响分析。即按比例下注策略最优。 

2. 超公平机会收益倍率 ：2丄<1。这种比赛的机会收益往往优于公平机会收益倍率的赛事， 
所以，任何人都希望将全部资金都押进去而不必保留现金。在这种比赛中，依然是按比例 
下注策略最优。但是，也可以选择满足 b, = c 丄 (其中 c = l /2 f ) 的策略 b 使其构成一 

O, Ci 
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个“ 大弃賭 ”或称“荷 兰賭” (Dutch book )。 在不需要知道什么马会获胜的情况下就能够获 
得相对收益 o 々, = c 。 在这种分配方案下，该马民的相对收益将依概率1 (换言之，无风险 

地）变成 S ( X ) = l / X~ L = c > l 。 毋庸置疑，在现实生活中很难碰到这样的机会。顺便提 

一下，大弃赌提供的下注策略尽管无风险，但它并没有使得双倍率达到最优化。 

3. 次公平机会收益倍率 此情形更代表现实生活。赛马组织者们总是要比所有马 

民技高一筹。在此种赛马中，马民只应该用一部分资金买马票，而将其他的现金捂住，这 
是最起码的知识。此时，按比例下注不再是对数最优了。利用库恩-塔克 （ Kuhn - Tucker ) 
条件（习题 6.6.2) 能够得到一个参数形式的最优 策略； 它有一个简单的解释是“注水式”。 

6.2 博弈与边信息 

假设马民具有一些关于赛马的成功和失败的信息 3 比如，马民或许拥有某些参赛马匹的历史 
记录，那么这些边信息到底有多少价值呢？ 

关于此类信息的经济价值的一个定义就是因此信息而导致的相对收益的增*。依照 6.1 节， 
我们当然采用因该信息而导致的双倍率的增 蟥来度 录信息价值。接下来导出互信息与双倍率增 
S 之间的联系。 

为了正式定义这个概念，假设；11,2,…， ml 为第 X 只马票，它获胜的槪率为 〆 x ), 机会 
收益 率为： o (: c ) 兑1。设 U , Y 0 的联合概率密度函数为 户 U ,： y )。 用 b ( x ) y )>0 9 ^ b(x I y ) = 

fl 64 l 1 记已知边信息 y 的条件下的下注策略此处 6( x |： y ) 理解为当得知信息 y 的条件 V ，用来买第 
x 只马票的资金的比例。对照前面的记号，将表示为无条件下注策略。 

设无条件双倍率和条件双倍率分别为 

W ( X ) = max ^]/)( x ) log 6( x ) o ( x ) (6-22) 

W 0 (X I Y ) = max ^ p ( x , y ) logb(x I : y ) o (: r ) (6-23) 

再设 

AW = W m (Xl Y )- W W ( X ) (6-24) 

对于独立同分布的赛马序列可以 看到： 当具有边信息时，相对收益增长为 2"^ <x|y> ; 

当无边信息时，相对收益增长率为2”’°°。 

定理 6.2.1 由于获得某场赛马 X 中边信息 Y 而引起的双倍率的增量满足 

AW =/( X ; Y ) (6-25) 

证明： 在具有边信息的条件下，按照条件比例买马票，即 b m ( x \ y ) = p ( x \ y ), 那么关于边 
信息 y 的条件双倍率 W (XI Y 05 I 以达到最大值^于是， 

W m ( X \ y ) = n ^[ lc « S ] = m ^^ p ( x ,^) logo ( x )6( xl >*) (6-26) 

* = '2, p { x , y )\ ogo ( x ) p { x \ y ) (6-27) 

= S />( x ) logo ( x )- H ( X | V ) (6-28) 

当无边信息时，最优双倍率为 

W ( X )= 2 p ( x ) logo ( x )- H ( X ) (6-29) 

从而，由于边信息 y 的存在而导致的双倍率的增董为 

△ W = W # ( X | Y )- W *( X ) = H ( X )- H ( X | y) = /(X ； y) (6-30) □ 

此处双倍率的增量正好是边信息 y 与赛马 x 之间的互信息。毫无疑问，独立的边信息并不 
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会提高双倍率。 

这个关系式也可以推广到更一般的股票市场（第16章）。当然对于股票市场我们仅能证明 
不等式△”</，等式成立的充分必要条件是该市场为赛马市场。 

6.3 相依的赛马及其熵率 

在赛马中，边信息最通常的表现形式是所有参赛马匹在过去比赛中的表现。如果各场赛马之 
间是独立的，那么这些信息毫无用途。如果假设各场赛马构成的序列之间存在关联关系，那么只 
要允许使用以前比赛的记录来决定新一轮赛马的下注策略，就可以计算出有效的双倍率。 

假设由各场赛马结果组成的序列 i \ l 是一个随机过程。假设每场赛马的下注策略依赖于此 
前的各次比赛的结果。此时，具有均匀的公平机会收益倍率的比赛的最优双倍率为 

= £[ fc( . lx max x E [\ o ^ S ( X k )\ X k . lt X k . 2 r -, X x ]] 

= logm - 卜卜 2 ,…， X |) (6-31) 

该最优双倍率可以在 6 •(而1為-丨, •••,〜）= /> (而|而-丨，… xD 时达到。 

当第72场赛马结束时，马民的相对收益变成 

s n = 1 J S ( X t ) (6-32) 

且增长率的指数（假设为 m 兑1方式）为 * 1 . 

丄 ElogS ” = — S £ logS ( X .) (6-33) 

n n 

= - J -^( log W - H ( X l | X I . 1 , X l . 2 t -, X I )) (6-34) 

如-坐 今二^ (6-35) ^ 

是 n 场赛马的平均熵。对于熵率为 H ( X ) 的平稳过程，对公式 (6-35) 两边取极 
n 

限可得 

lim ~£ logS n + H { X ) = logm (6-36) 

« n 

此公式再次说明，熵率与双倍率之和为常数。 

公式 (6-36) 中期望的运算在遍历过程的条件下芎以去掉。第16章将证明一个遍历的赛马序列， 

S n =2 nW 依槪率 1 (6-37) 

其中 W = log ； w - H ( AO 且 

H(Ar) = lim - i - H ( X 1 , X 2 f -, X n ) (6-38) 

例 6.3.1 (红与黑)用扑克牌代替马匹，随着时间的流逝，结果变得越来越可以预测。考虑 
猜测下一张扑克牌颜色，一副扑克分成26张红的和26张黑的。猜测下一张发出的牌是红色还是 
黑色，直到所有牌发完。我们也假设该游戏的机会收益为2兑1，即，如果猜对了，就可以得到下 
注于正确颜色的赌注的两倍回报。假如红色和黑色出现的概率相同，那么这种游戏是公平机会收 
益的。 

考虑以下两种下注 方案： 

1. 如果顺序地下注，那么可以计箅出下一张牌的条件概率并且按该条件概率为比率下注。 
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于是，将按照（红，黑）的槪率分布为 ) 下注第一张，当第一张为黑色时，再以 
(if , if) 为概率分布下注第二张。如此下去。 

2. 另一种，我们可以一次性下注52张牌构成的序列。那么有26张红色和26张黑色的扑克 
牌可以得出种可能的序列，且每个序列出现的槪率相等。于是，按比例下注意味着 

将现金分成份，对每一个序列下注的资金。当然假设我们猜对或猜错每张 
扑克牌是红是黑的槪率各占一半。 

接下来讨论这两种方案是等价的。例如，52张牌组成的所有序列屮，第一张是红色的所有序 
M 列恰好占一半，所以按照方案2赌红色也是一半资金。一般地，如果将种可能的序列视为基 

本事件，那么可以 验证： 对每个基本事件下注资金，则所有下注的策略在任何场合都是 

与红色与黑色在此场合出现的概率成比例 3 既然我们只将 l / gU 资金下注在可能的基本事件 

上，而且只下注在使得相对收益增长率是2 52 的因子的观测序列上，对于其他序列分文不投，那 
么，最终相对收益为 

S 5 2 = 7 & = 9.08 (6-39) 

U) 

更有趣的是，此回报并不依赖于具体的序列。这就像 AEP 中所说的，任何序列都有相同的回 
报。从这个角度来讲，所有序列都是典型的。 


6.4 英文的熵 

虽然英文文本是一个重要的信源，但英文到底是不是一个平稳遍历过程却并不是一目了然 
的。很可能不是！然而我们感兴趣的是英文的熵率。我们将讨论对英文的各种各样的随机逼近。 
随着逐步提高模型的复杂度，可以生成一些看起来很像英文的文本。这样的随机模型可以用来压 
缩英文文本。随机逼近程度越好，压缩性能越强。 

为了讨论方便假设英文的字母表由26个字母和空格共计27个字符构成，也就是说，忽略标 
点符号和大小写。通过收集一些文本样本，根据这些文本中的字符的经验分布建立英文模型。在 
英文中，字母出现的频率远不是均匀的。宇母 E 出现的频率最髙达13%,而频率敁低的字母 Q 
和 Z 大约为0.1%。字母 E 出现频率之髙以至于几乎找不到几个任意长的句子当中没有该字母 
(但有一个例外，那就是小说家 Ernest Vincent Wright ( Ughtyear 出版社， Boston , 1997; 1939年首 
次发表），在其共计267页的小说 ( Gadsby > 中刻意回避使用字母 E ) 。 

双字母也一样，远不是均匀分布。例如，字母 Q 后面总是跟着字母 U 。 但频率最髙的双字母 
不是 QU 而是 TH , 通常出现的槪率为3.7%。可以利用这些双字母出现的頻率来估计一个字母 
后面跟随另一个字母的概率。如此还可以估计更高阶的条件概率并建立更复杂的模型。仅如此下 
m \ 去，样本很快就 会告* 。例如，建立三阶的马尔可夫逼近，必须估计条件概率/>(々1：*:,^，: r ^ 2 , 
x ,_ 3 ) 的值，那么要建立有27 4 = 531 441项的巨大表格，这样，要想得到这些概率的精确估计，必 
须处理数以百万计字母数的样本文本。 

条件概率的估计可以用来生成服从这些分布的字母的一个随机样本(利用随机数生成方法)。 
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有另外一种较简单的办法来拟合随机性，用一段文字样本（比方说， 一 本书〉 为道具。例如，若构造 
二阶模型，那么随机打开书本，选定该页上的一个字母，将其作为第一个字母。再随机地翻开书 
本，随机地从某处开始往下读，直到出现第一个字母为止，将紧随该字母的那个字母选取为第二个 
字母。再翻到另一页，重复前面的过程，搜索第二个字母，当我们找到了第二个字母之后，取其后面 
的那个作为第三个字母。如此下去，我们可以生成一个文本，它就是英语文本的二阶统计量的拟合。 

从香农的原始文章 [472] 中，我们抽出下列关于英文的马尔可夫逼近的几个 例子： 

1. 0 阶逼近 （字符串是独立的且等可能 的）： 

XFOML RXKHRJFFJUJZLPWCFWKCYJ 
FFJEYVKCQSGXYD QPAAMKBZAACIBZLHIQD 

2. 1 阶逼近 (字符 串是独 立的，字母的频率与英文文本吻 合）： 

OCRO HU RGWR NMIELWIS EU LL NBNESEBYA TH EE 1 
ALHENHTTPA OOBTTVA NAH BRL 

3. 2 阶逼近 (字母对出现的频率与英文文本吻 合）： 

ON IE ANT 90 UTINYS ARE T INCTORE ST BE S DEAMY 
ACHIN D ILONASIVE TUCOOWE AT TEASONARE FUSO 
TIZIN ANDY TOBE 亚 ACE CTISBE 

4. 3 阶逼近 (三字母出现的頻率与英文文本吻合） 

IN NO 1 ST LAT WHEY CRATICT FRUURE BERS GROCID 
PONDENOME OF DEMONSTURES OF THE REPTAGIN IS 

RE ( X)ACTIONA OF CRE Q 69 

5. 4 阶逼近 （四字母出现的频率与英文文本吻合，且第四个字母依赖于前面三个。 F 面的句 
子来自 Lucky 的书 (硅 谷梦 >[366]: 

THE GENERATED JOB PROVIDUAL BETTER TRAND THE 
DISPLAYED CODE , ABOVERY UFONDULTS WELL THE 
CODERST IN THESTICAL IT DO HOCK BOIHE MERG . 

(INSTATES CONS ERATION . NEVER ANY OF PUBLE AND TO 
THEORY . EVENTIAL CALLEGAND TO ELAST BENERATED IN 
WITH PIES AS IS WITH THE ) 

6. 1 阶单词模型 （ 词汇是独立选择的，但频率与英文文本吻 合）： 

REPRESENTING AND SPEEDILY IS AN GOCD APT OR COME 
CAN DIFFERENT NATURAL HERE HE THE A IN CAME THE TO 
OF TO EXPERT GRAY COME TO FURNISHES THE LINE 
MESSAGE HAD BE THESE 

7. 2 阶单词模型 （词汇的转移概率与英文文本吻 合）： 

THE HEAD AND IN FRONTAL ATTACK ON AN ENGLISH 
WRITER THAT THE CHARACTER OF THIS POINT IS 
THEREFORE ANOTHER METHOD FOR THE LETTERS THAT THE 
TIME OF WHO EVER TOLD 1 'HE PROBLEM FOR AN 
UNEXPECTED 

由此可见，随着模型的复杂度上升，逼近就越来越像英文了。例如，从最后的逼近中的长词 
组简直就是真实的英文句子。这表明，如果使用更复杂的模型，那么我们还可以得到更好的逼近。 


THE HEAD AN 
WRITER THA ， 
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这些逼近通常用来估计英文的熵。例如，使用0阶模型时，熵为 log 27 = 4.76 比特斥母。随着模 
型复杂度的增加，可以捕捉到英文的更多结构信息且使得下一个字母的条件不肯定度变小。使用 
1阶模型可以得到每个字母的熵的估计为 4.03 比特，而4阶模型所得的熵的估计则为 2.8 比特/ 
字母。即使这样 ， 4阶模型也不能够捕捉到英文的所有结构。在 6.6 节中继续讨论英文的熵的估 
计的其他方法。 • 

^ 英文的分布对于加密的英文文本的译码十分有用。例如，在简单的替代加密（即任何一个字 

母都用另外一个字母替换)的秘文中，可以通过搜索频率最高的字母来确定该字母替换了 E , 其 
他类似。在一段英文中，当其他字母解密后，对于缺损的位置用一个非英文字符填补。例如， 
TH_R — _ S _ NLY _ N _ W _ YT _ F _ LL _ NTH . V _ W _ LS _ N TH _ S S _ NT , NC _ . 
香农的关于信息论的原创工作的某些灵感来自于第二次世界大战期间他在密码学的工作。密码 
学的数学理论以及密码学与语言的熵之间的关系也在香农的文章 [481] 中作了详细论述。 

语言随机模型在某些语音识别系统中也起到了关键作用。经常使用的模 ® 是三字符模型（也 
就是2阶马尔可夫单词模型），它是估计在已知前面两个单词的条件下来估计出下一个单词出现 
的概率。从语音信号中获得的信息与模型结合可以产生一个最酷似于在被观测的语音中的词汇。 
虽然我们还不能淸楚地看出随机模型是否有能力将支配自然语言（如英语）的复杂语法规则进行 
整合，但它们在语音识别中吻合的程度已经好得令人吃惊。 

我们可以将这种技巧使用在其他信源，比如，语音信号和图像信号等，估计它们的熵率。关 
于这些内容的风趣的介绍可在 Lucky [366] 中找到。 

6.5 数据压缩与博弈 

本节证明一个优秀的马民也是一个优秀的数据压缩器。借此说明博弈与数据压缩的直接联 
系。其实，马民愿意将大笔资金 T 注的任何一个序列必定是可以被大幅压缩的序列。将马民视为 
数据压缩器的想法基于这样的 亊实： 马民的每个下注策略可以认为是对数据的概率分布给出的 
估计。一个优秀的马民必然得到该概率分布的优秀估计。我们可以利用对概率分布的这种估计进 
行算术编码 (13.3 节)。这是下述的方案的基本思想。 

假设马民有一个在机械性能上完全相同的虚拟双胞胎，其专门管数据解压缩。该孪生兄弟将 
M 与现实中的马民兄弟有同样的下注策略（因而投资相同的钱）。于是在所有可能的结果构成的序 
列集合中，对于一个给定的序列，按照字典排序法，有一些序列小于该给定的序列，马民从所有 
这些序列上获得的累计资金将用作该给定序列的压缩数据。解码器将利用虚拟的马民对所有可 
能的策略进行模拟下注，从中搜索出这样一个序列，从所有比它小的序列获得的累计资金正好就 
等于该压缩数据。将此序列作为压缩数据的解压序列。 

令 X t ， X 2 ，…， X ” 为一个待压缩的随机变量序列。不失一般性，假设这些随机变贵是二值的。 
于是，对一个序列的博弈可以定义为如下的一系列分步下注策略 

b ( x k ^i I ^0, ^6( x 4+ i I x x , X 2 ， ama jX k ) = 1 (6-40) 

其中为基于历史观测数& A ，: r 2 , …，: r * 之下，在务时刻时下注在事件 
\ + 1 =々 + 1 的资金比例。假设均匀的机会收益是2兑1,那么，博弈序列所得的相对收益就是最 
后一步所得的相对收益\按如下公式计算 

S „ =2 " II b ( x k I X ,, — (6-41) 
= 2 n b ( x l 9 x 2 ,-： x n ) (6-42) 
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其中 


n 

6( xi ， x 2 ,**-. x >t ) = TT b ( x k I j ：*]， …， (6-43) 

所以，顺序的下注可以看成是对所有 2” 种酊能序列的概率分布 

6( x !， x 2 , —, x n »0, 2 b ( x l 9 x 2t — , X „) = 1 

*_.今 

进行估计。 

这个博弈不仅引出了对文本序列的真实概率的估计 (>( Xl ,: r 2 , …, :^) = S n /2”）， 还带出了文 
本的熵 ( A = -+ log /») 的估计，据此刻画该序列。接下来希望证明相对收益 S „ 越高，对应的数据 

压缩比越高。特别是，讨论当问题涉及相对收益时，那么对于任何自然形成的相关的确定性 
数据压缩方案中能够节约 logS ， 比特。我们还将进一步断言，如果该博弈是对数最优的，那么， 

数据压缩比将达到香农临界值 H 。 网 

考虑如下数据压缩算法，它将文本序列 1 = 々 0 ： 2 …10,11” 映射为编码序列， c lC2 _"c „， 
c,e iO.llo 压缩器与解压器都知道该 n 。 假定这 2” 个文本序列按照字典排序。比如， 0100101< 
0101101 。 编码器观测 序列/ = (&,0： 2 , •••,:*:„) 之后，可以计算每个满足: r'UXxU) 的序列 
x ' U ) 所得的相对收益 S n ( r ( n )), 并计算 F ( x ( n ))= S 2* " S n ( x ( n ))« 显然， 

n ： rU )) e [ o ， i ]。 令卜 r ”- iogs ll u (； i )) i , 将 fuu )) 表 到第々位的二进制 小数： 

LF ( x ( n )) J = . … c * 。序列…, Q ) 被传檢给解码器。 • 

孪生解码器可以计算出对应的2” 个序列中的任何一个 / U ) 所得到的相对收益 S (/( n ))。 

于是，可以知道处于任何序列 : r ( W 的所有序列 /( n ) 所对应的2-”5(/(«))的累计值。它不厌 
其烦地计箅这些和，直到首次超过 . cU ) 为止。当首次搜索出这样的 xU ) 使得上述粜计值落在 
区间 [. c lC 2 … c *,. qc 2 … q + ( l /2)*], 则停止搜索。这样的是惟一确定的。 SUU ))/2” 的 
大小保证了对 x ( n ) 的编码是精确的。 

于是，该虚拟孪生兄弟惟一地恢复出了 * r ( n )。 所需要的长度为々 =「《 - logS (: rU ))1 比特。 

节省了； i-ife = LlogSU (7 i )> J 比特。若按比例下注，那么 SU («)) = 2”/> U ( n )〉。 从而,长度的 
数学期望为 + 

我们将会看到，当下注策略已定且编码器和解码器都知道，那么编码工,，: r 2 ,-,: r „ 所需要的 
长度小于《 - logS ^ + 1比特。而且，假如/ >(: r ) 已知，并且按比例下注，那么长度的数学期望值 

，…，尤）+ 1。于是，博弈的结果精确地对应了通过一对孪生兄弟来扮演 
的编码器-解码器来实现的数据压缩方案。 

利用一个马民来实现数据压缩方案的思想与 13.3 节中算术编码的思路是相似的，使用的分 
布 6( x , ，: r 2 ，…, x „) 不是真实分布。上述分析过程导出了博弈与数据压缩的对偶关系，涉及真实 
分布的估计。越好的估计，马民的相对收益增长率越高，从而数据压缩的方案就越好。 

6.6 英文的熵的博弈估计 

本节我们使用赌民估计概率分布的方法来估计英文的熵率。我们暂时忽略英语中的标点符_ 
号和大小写，将英语文本视为由27个字符组成 (26 个字母和一个空 格）。 由此，给出如下两种估_ 
计英文的熵的方法。 

1. 香农猜字游戏。 在此游戏中，给出一篇英文文章样本，要求猜出下一个字母是什么。一个 
优秀的嘉宾应该首先估计下一个可能出现的字母的概率，然后依照概率大小从大到小依 
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次猜测，先猜概率最大的，再猜概率次大的，依次下去。实验者记录下猜中下一个字母所 
需要的次数。继续此游戏，当获得相当大数量的实验记录之后’就可以计算出该对下一个 
字母所需要的猜测次数的经验频率分布。许多字母仅需要一次就可以猜中，但单词的第 
一 个字母或者句子的开头的字母往往需要反复很多次才能猜中。 

现在假定将嘉宾模拟成一台计算机 • 根据指定的文章确定猜测选择。此时，利用该机 
器，以及猜测次数的数据列，可以重构一个英语文本。只要将该计算机启动，并假设在任 
何位置上所需的猜测次数均为 I 选取机子的第々次猜测的字母为下一个出现的字母即 
可。于是，猜测次数的信息址正好是英文文本的信息量，猜测序列的熵也正好是英文文本 
的熵。只要我们假设所选取的样本是独立的，就坷以界定猜测次数序列的熵。从而，该实 
验数中直方图的熵就为猜测序列的熵的上界。该实验是香农于 I 950 年给出的 （Shannon 
[482 ])。 他获得的英文的熵为 1.3 比特斥符。 

2. 博弈估计。 在此游戏中，让嘉宾在一篇英语范文中猜测下一个字母出现的字母。这与前面 
的不同之处在于，允许有一个比猜测更为精细的评判等级。与赛马的情形一样，最优的博 
弈策略是与下一个字母出现的条件槪率成比例。猜对了字母的机会收益是 •• 27 兑 

由于一连串的分步下注等价于下注一个序列的所有项，因此，在”个字母之后可得 

到所得的收益总额为 

S B = (27)-6(X l .X 2f -,Xj 
于是，经过 n 轮下注，相对收益的对数期望满足 


(6-44) 


E 丄 logS” =log27 + +£log 6 (Xj,X 2 . —»X„) 
n n 

=log 27 + ~ 2/>(x")log6(y) 

= log27 -士 々 (’Hog 韻 


(6-45) 


(6-46) 


(6-47) 


s 

= log27-^-D(/>(x")ll bU)-^mX l9 X 2 ,- 9 X n ) (6-48) 

<k)g 21-\H(X x ,X 2 ,-,X n ) (6 - 49) 

<\ ogll - X ( X ) (6-50) 

此处 HW 是英 文的解 c > = fm \ og 21 - E -^\ ogS n 9 是英文的熵軸上界。娜英文是遍 

臟且痛宾使用 b ( x n ) = p ( x n ), 那么其上界估计 ft = log J 7 - 士 logS ” 依概率1收敛 T 

H ( X ) 0 文献 131] 中给出一个 试验： 利用 Dumas Malone 的小说 (Jefferson the Virginian 》 为 
范文(香农使用的信源 Little ， Brown ， Boston ， 1948 )， 由 12 个参赛者针对 75 个样本字母进 
行实验，所得到的估计结果仍然是英文的熵为 1 .私比特序符。_ ____ 


要点 


摩 

双倍率 W(b,p) = E(logS(X))= 九 kjg6*o*i 
最优双倍率 W • (P) = maXfcWCb.pJo 
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Sc W ： 例得并 ft 对 H 雄 W 的 


W (p) = n»xW(b,p) = Epikgor Hip) 

(6-51) 

且 IT: p 时达到最 大值。 


增长率 相对收益按 夂 2"0> 方式增长。 

守恒定律对于均匀的公平机会收益倍率， 

175 

H(p) W* (p) = logm 

(6-52) 

边信息 在一场赛马 X 中，由边信息 Y 导致的双倍率的增置 AW 为 


AW=/(X ； y) 

(6-53) 


习题 

6.1 赛马。三匹马参赛。马民购买三匹马中每只马票，机会收益倍率均为3兑1。如果三匹马在 
该赛事中等可能获胜，那么上述的机会收益是公平的。现已知真实的获胜槪韦为 

P=(P"/>2，/>3)= ( +， j •士） （ 6 . 54) 

令办=( 61 , 62 ,~),化>0,2化=1为昀买每只马票的资金比例。 r 是，相对收益的对数的期 
望为 

W(b) = X]p,log3h (6-55) 

• _1 

(a) 求使得 W(6) 达到 Jit 大值时的 6 •和相应的 M 大值 VV。 于是， 取复 下注，获得的收益 
将是依槪率1按照2”^方式增加到无穷。 

(b) 证明： 如果将全部资金只买马1的马票，那么即使买 M 有可能获胜的马票， M 终半必然 
依槪率1破产。 

6.2 非公平机会收益的赛马 。如果机会收益是不平等的（比如赛道引起的），那么马民有理由不 
倾 其钱囊 下注。假设 6(0) 是他保留的现金比例，而 6(1),6(2), ……（⑺）是他花在马匹1， 
2,…， m 马票上的资金比例， 0 (1), 0 (2), •••,<>(/«) 是机会收益，且每匹马获胜的槪率分别 
为 p(l),/>(2),.“，p(m) 0 于是，最后的相对收益为 S(x) = 6(0) + 6(x)o(or ), 其概率分 
别是 M：r)， j : = 1，2，•••，//!() 

(a) 求在约束条件 Sl/ O (0<l 之下的使 ElogS 最大化的 IT 。 

(b) 在约束条件 Ll/o(i)>l 之下讨论 b •(此情形下，没有任何简单的封闭形式的解，但利 

用库恩-塔克条件可以导出一个“注水”解。） • ! 

6.3 扑克牌。一副普通的扑克牌中，26张为红色，26张为黑色。将扑克牌充分洗牌混合，每次 
无放回地抽出一张。用X,表示抽出第 f 张牌的颜色。 

(a) 试求 H( Xt)o , 

(b) 试求 HU 2 )。 

(c) 出\|：^ 1 ，又 2 ,“.，：^- 1 )是增加还是减少？ 

<d) 试求 H ( X l 9 X 299 X 52 )o 

6.4 博弈。 假设一个赌民持续地参与习题 6.3 中的扑克牌游戏，并且仍然按照2兑1的公平机 
会收益。于是，第”次的相对收益氏为= 其中 6(々，x 2 , …， x„) 是下 

注在0:^X2,…， A 上的资金占总相对收益的比例。求 max^wElogS^。 
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6.5 


挫敗公开的机会收益。 考虑三匹赛马，它们获胜的概率分 布为: 


且公平机会收益倍率服从如下(失败)分布 

(n.r 2 ,r 3 )=(-J-,J,y) 

于是，机会收益倍率向 M 为 


(。1 ，。2，。3)= (4,4,2) 


( a ) 该场赛马的熵是多少？ 

( b ) 找出一系列下注策略 ( 6 ^ 62 , 63 ), 使得反复昀买马票之后的累积相对收益增长到无穷。 
6 . 6 赛马。三匹马赛马获胜的概率为 p =(/> i ,/» 2 ,/> 3 ), 且机会收益向量为 o =( l , 1 , 1 )。马民选 

择的下注策略为其中 6 ,是马民下注在第 f 匹马的资金的比 
例。机会收益倍率向麽相当糟糕。马民虽然从获胜的马票上得到收益但也从失败的马票上 
丢掉其他资金。于是，如果每次下注是独立的，记第 n 次时的相对收益为 S „, 那么它是按 
指数下降到 0 的。 

岡 ( a ) 求出该指数。 

( b ) 找出最优下注策略 b (即，使得指数 M 大化的策略 b ')。 

(c) 假如 b 就是 ( b ) 中选出的策略，什么样的分布 p 将会使 S„ 以最快的速率输光？ 

6.7 赛马。假定一场赛马中有四匹赛马，每匹马获胜的赔付率为4兑1。令马获胜的概率分别为 

im 音 I 。如果你以 100 美元开始你对每匹马的 M 优 W 弈来使你的长期增长率 M 大 

化，那么，在每匹赛马上的 JS 优比例是多少？如果按照这种策略下注，20场后你将大约获 
、得多少钱？ 

6.8 乐透彩 （ Lotto )。 下面的分析是对乐透彩游戏的各种形式的粗略描述。假设游戏参与者必须 
交纳一美元且每一局只允许在 1 〜 8 中挑选一个号。每天收盘时，乐透彩代理人也从 1 到 8 
中随机抽取 1 个号作为中奖号码。于是，所有头寸（即当夫收取的所有钱)将分给所有与该 
号相同的游戏参与者。比如，如果今天有 100 人参与该游戏，其中 10 人选了 2 号，并且当 
天收盘时抽出的号也是 2 号，那么，这 100 美元将在这 10 人中均分(即，持有 2 号的人将获 
得每人10美元，其他90人将什么也没有）。 

一般人群不可能均勻地选号，比如号码3与7是假定的好运气号码，远比号码4或 8 
抢手。用 (/ i ,/ 2 , …,/ 8 )表示参与者选择号码 1 , 2 ,…， 8 的槪率。假设每天有”个人参与， 
且 n 相当大以至于个别人的选择不会影响人们博弈某个号码的槪率。 

( a ) 针对各种各样可能的票，需要采取什么最优策略分配你的资金才能使得你的长期增长 
率最大化(忽略你不可以买分数张票的要求）。 

( b ) 在这种游戏中，你能够达到的最优增长率是多少？ 

( c ) 如果概率分布 (/ i ,/ 2 , …,/ 8 )=(音,音，+,忐， m 咨)® 要用多长时间你可以 

用 1 美元将自己变成百万富翁？ 

6.9 赛马。假如某人迷恋于赛马的双倍率最大化。设 Pi 、 p 2, …， Pm 为 rn 匹赛马获胜的概率，什 
回 么时候 ( 0l , o 2 , …， o m ) 的双倍率会高于 ( 6 ,(/ 2 , …，“）的双倍率？ 

6.10 依据估计的概率分布的赛马。 
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(a) 三马比赛。 三匹马获胜概率分别为 (m ) ,机会收益倍率分别为 4 兑1, 3 兑1和 

3兑1。假如你相信概率分布是(士，而且你想将双倍率最大化，那么，你能得 
到的双倍率 W 会是多大？由于你对于概率分布的糟糕估计，你的双倍率降低多少？ 
(即厶 W= W •- W)? 

(b) 现在假设在 m 匹马的赛马中，获胜概率为 /> = ( /…， Pm), 机会收益倍率为0 = 
(o 1 ,0 2 ,-,O m )o 假如你相信的真实槪率分布是 9 =(W, 仍,…，^),尝试将双倍率 W 

最大化，那么，是多少？ 

两红包问題。 假设一个红包里装有6美元，另一个装有26美元。当然6的数量是未知的， 
且选择哪个红包是随机的。设X为这个红包中观测到的钱数，而 Y 为另一个红包中的钱 

数。以槪率 pU ) 采用开关选择策略，其中 = 设 Z 为参与者收到的红包。 


于是, 


(X,Y)=^ 


(b ， 2b) 

(2b,b) 


概率为 j 
槪率为 f 


(6-56) 


x 槪率为 1- pU ) 
Y 概率为 P(x> 


(6-57) 


(a) 证明 E(X) = £(Y) = @。 

(b) 证明 EOVX) = ~|。 由于另一个红包数 M 与看过的红包的数坩的比值的数学期申为 

似乎总是要选择的（这是开关选择矛盾的原始意 义）。 但是，观察到 ^(y) 关 

£(x)£( w;o。 虽然 e ( v / x )> i , 但它不足以推出 £(y)>E(x)。 

( c ) 令 j 为钱最多的红包的下标 J' 是由该算法选出来的红包的下标。证明对于任何 h 均 
有 kj , j ，）> o 。 于是，第一个红包装有的钱数总是包含了到底选哪个红包的部分 

信息。 ^ , . , 

(d) 证明 E ( Z )> E ( X ) 0 也就是说，你可以做得比始终捂着或者不停换股都好。事实上， 

这对于任何单调递减的选择函数 P(*r) 都是对的。按照 p(a：) 随机地选择，你会有更大 
的可能性高买低卖。 

6.12 博弈。求下列情形对应的赛马获胜概率 Pi 、 P 2, …， P ， 

(a) 对于给定的机会收益率 0 i ，0 2 , …，。„， 使双倍率 W •最 大化。 

(b) 对于给定的机会收益率 0、，0 2 ，…几 ，使双倍率 VV •最小化。 

6.13 大 弃賭。 考虑一场只有 m = 2 匹赛马的比赛， 

X=l,2 

1 1 

m 

机会收益倍率分别为10和30。下注策略= 6，1-6。此时机会收益倍率是超公平的。 

(a) 存在这样一种下注策略6,不论哪匹马获胜均可得到相同的盈利。这种赌法就是所谓 
的大 弃賭。 求出这样的大弃赌策略6以及相应的收益系数 s(x)。 
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( b ) 在最优选择 b 之下的最大财富增长率是多少？将其与大弃赌的增长率比较。 

6.14 公平赛马的熵 。令 X 〜 />(: r )，: r == l ， 2 ，_“， 77i 记一场赛马的获胜者。假设机会收益率 0 ( 1 ) 

关于概率 pU ) 公平(即， o ( x ) = ^)。令 6U ) 为下注在第: r 匹马的资金量，即 bU )> 

0 , d ( x ) = lo 那么，关于槪率 /> U ) 的收益增长因子为 SU > = 6U ) 0 U )。 

( a ) 求出期望收益 £ S ( X )。 

( b ) 求收益的最优增长率 W 0 
( c > 设 

IK X = 1 或 2 
U 其他 

如果下注前得到该边信息，那么增长率 W 的增量是多少？ 

画 （ d ) 求 JU ; Y) 0 

6.15 賭输的另类赛马。 考虑获胜的概率为，/> 2 ,…， An 的 m 匹赛 马参赛的一场赛马。此时， 

马民希望指定的某 K 马输掉而不是获胜。他将资金分配为（心，= 1 下注 
在对应的马匹上。如果第 《• 匹马获胜，那么他将失去赌资 6 ,但保住了其他的赌资。于是依 
概率/»,•保留了赌资 S = (无机会收益〉。现在希望在约束条件 1 ]^ = 1 下得出 

y ^. /> jln(l - 6 ,) 的 Ji 大值。 

<■ I 

( a ) 求姑优投资策略 6 •的增长率。不必限制赌资必须为正，但必须限制 2 & = 1 ( 这种策 

<_1 

略 的效果等价于允许卖空和对 冲)。 

( b ) 最优增长率是多少？ 

6.16 圣彼得堡 （ St . Petersburg ) 悖论。 很久以前在圣彼得堡，下述的博弈提案引起极大的骚动。 
交 c 单位的人场费，赌民有槪率为 2 _*的机会获得 2 * 单位的收益 A = l ,2,3 …。 

( a ) 证明： 该游戏的期望收益为无穷大。因此，为了保证该游戏可以持续下去，认为只有 
c = oo 才是“公平”价。绝大多数人认为该答案是荒谬的。 

( b ) 假设赌民有能力购买该游戏的一个份额。比如，假如他只购买 c / 2 单位，那么他只能 
以概率为 Pr(X = 2 *) = 2 _ *U = l ,2,3 …）收到 X /?数馕的回报。假设 Uh …是服 
从该概率分布的独立同分布序列，而赌民每次将其所有资金全部下注。于是，第”次 
时他的收益累计为氏满足如下公式 

S n = IT 7 1 (6-58) 

-• i-i c 

证明：在 〆〆 或者 c C • 条件下，该极限分别依概率 1 收敛于 00 或者 0 。 确定“ 公平” 
入场费，。 

更切合实际的是，赌民应该保留一定比例现金 6 = 1 - 6 , 只将其余比例 6 的现金用来参与 
圣彼得堡游戏。于是，到了第《次时，他的相对收益为 

“ 苧） 


令 


(6-59) 
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W (6， c )= S 2_* log(l - 6 +亨) (6-60) 阻 

我们可得到 

S n =2 nW(6 * f) (6-61) 

再令 

W ' ( c ) = max W ( b y c ) (6-62) 

于此，有如下关于 WU ) 的三个问题。 

( c ) 多少的人场费 c 能够使得最优化的值 6" 低于1? 

( d ) V 在多大程度上依赖于 c ? 

( e ) W ( c ) 的下跌在多大程度上依赖于 c ? 

注意到对于所有 c , 均有 W ( c )>0, 于是可 以说： 任何入场费 c 都是公平的。 

6.17 超圣彼得堡悖论。最后， 我们介绍超圣彼得堡悖论，与圣彼得堡悖论相比，它只是在对应 
的槪率分布部分改为 PKX = 2 24 ) = 2〃， 走= 1,2,…。此时，对于所有6>0以及所有的 
收益的对数的期望都趋近于无穷。而且对于任何6>0,赌民的收益趋近于无穷的速度都 
比指数速度更快。但这并不意味昔下注比例6是优秀的。为了看清这一点，可以看看其他 

投资组合所对应的增 K 率的 ® 大值到底如何，比如，取 6=( + 求使得 

£ln ^L^ 

i + i x/c 

达到 M 大值的6并且解释该答案。 

历史回顾 

研究赛马博弈的首创性工作者当 W Kelly , 他发现了 △；¥=/( 参看文献[308])。对数 M 优投 
资组合可以追溯到伯努利和 Kelly [308] , Uiane [346], 及 Latan 6 和 Tuttle [347]。按比例下注策 
略 有时与 Kelly 博弈策 略不加区别。通过习题 6. 11中选择红包的方法来提高获胜概率的方法是 
基于 Cover [130] 的工作。 

香农关于英文的随机模型的工作可在他的原创文章 [472] 中找到。他的关于估计英文熵率的 
猜字游戏可以在文章 [482] 中找到。 Cover 和 King 在文献 [131] 中描述了英文的熵的博弈估计法。 

关于圣彼得堡悖论的分析可在 Bell 和 Cover [39] 中找到。在 Feller [208] 中还可以找到另一个 
分析。 國 




第 7 章信道容量 


当说到 “ A 与 B 通信”时，我们的真实意思是什么？我们的意思是 A 的物理行为使 B 产生一 
种需要的物理状态。信息的传输是一个物理过程，因此，必然受到无法控制的周边噪声以及信号 
处理本身缺陷的影响。如果接收者 B 与传输者 A 就所传输的内容是一致的，那么说这次通信是 
成功的。 

在本章中，在 n 次使用信道下，将计算出可区分的信号的最大数目。该数与 rz 成指数增长 
关系，这个指数就是所说的信道容最。信道容 *( 可区别的信号数目的对数值）被特征化为最大 
互信息，是信息论的中心问题，也是信息论中最著名的成就。 

在图 7-1 中给出一个物理发送信号系统的数学模拟。来自某个有限字母表的信源字符被映 
射成一系列信道字符串，系统就得到信道的输出序列。输出序列虽然是随机的，但它的分布由输 
人序列决定。我们试图凭借着这些输出序列来恢复出传输的消息。 

每个可能的输人序列将导出关于输出序列的槪率分布。由于两个不同的输入序列可以产生 
相同的输出序列，于是根据输出序列不知道输入序列到底是哪个。在下面的几节中，我们将证明 
能够以很高的槪率从输入序列中挑选出一个“不会混淆”的子集，使得对于每一个特定的输出序 
列，只存在惟一的一个输人最有可能导致该输出。于是，在不计较可以忽略的误差概率的情况 
下，可以在输出端 S 构输入序列。将信源映射到适合于输人信道的“足够分敗的”输入序列集合, 
我们能够以非常低的误差概率传输一条消息，并且在信道的输出端重构出这个信源消息。可实 
现的最大的码率称作该信道的 容量。 



图 7-1 通信系统 
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定义 离散信道 (discret channel ) 是由输入字母表输出字母表 : V 和概率转移矩阵 p { y \ x ) 
构成的系统，其中 Mjyk ) 表示发送字符工的条件下收到输出字符7的槪率。如果输出的概率分 
布仅依赖于它所对应的檐人，而与先前信道的输人或者输出条件独立，就称这个信道是无 记忆的 
( memoryless ) 0 

定义离散无记忆信道 的“信息”信道容量 (channel capacity ) 定义为 

C = max /( X ; V ) (7-1) 

这里的最大值取自所有可能的输人分布 PU)o 

我们稍后将给出信道容童的一个可操作性的定义，也就是将信道容量定义为信道的最高码 
率(单位为比特/信道使用），在此码率下，信息能够以任意小的误差概率被传输。香农第二定理 
表明，信息信道容量等于这个可操作的信道容 *=> 于是，在大多数情况下，讨论信道容量时总是 
略去信息 ( information 〉这个字眼。 

在数据压缩与数据传输问题之间存在对偶性。在压缩过程中，去除数据中所有的冗余以使 
其得到最大程度的 压缩； 而在数据传输过程中，以一种受控方式加人冗余以抵抗信道传输中可能 
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发生的错误。在 7. 13节中，我们将证明一般的通信系统可以分成两部分，而且数据压缩与数据 
传输问题可以分开考虑。 

7.1 信道容量的几个例子 

7.1.1 无噪声二元倍道 

假定有如图 7-2 所示的信道，它的二元输人在输出端能精确地重现。 

在这种情况下，任何一个传输的比特都能被无误差地接收到。因此，每次使用该信道，都 
可以毫无误差地传输一个比特，信道容虽就是1比特。当然，也可以计算得到信息容量 （：= [M 

max /( X ; V ) = l 比特，且在 /> U )=( 时达到。 

7.1.2 无重叠输出的有嗓声倍道 … 

这个信道对于两个输人中的每一个，均有两个可能的输出，如图 7-3 所示。这个信道看起来 
有噪声，其实不然。即使信道的输出是输 A 的随机结果，但输入也可以根据输出确定，于是每个 
传输的比特都可以准确无误地得到恢复。因此，该信道 的容埴 仍然是1比特/ 传输。 也可以计算 

出该信道的信息容量 C = maxJ ( X ; y ) = l 比特，且在时达到。 [185 

7.1.3 有噪声的打字机倌道 

在此情形中，信道输人以概率1厶在输出端无改变地被接收，或以概率1/2转变为下一个宇母 
(如图 7-4 所示)。若输人端有26个字符，并以间隔的方式使用输人字符，那么在每次传输过程中， 

可以奄无误差地传输其中的13个字符。因此，该信道的容贵为 logl 3 比特/传输。也可计算得到 
信道 的容揪 C = max /( X ; Y ) = max [ H ( y )- 
H ( V | X )] = maxH ( Y)-l = log 26 - 1 = logl 3 比 
特，且当 p ( or ) 为整个输人字母表上的均匀分布 
时达到该容 


图 7-2 无噪声二元信道。 C =1 比特 


图 7-3 无重叠输出的有噪声信道。 C =1 比特 





有噪声信道 输入的无噪声子集 


图 7-4 噪声打字机信道。 C = Iogl 3 比特 


m 
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7.1.4 二元对称倍道 

考虑如图 7-5 所示的二元对称信道 (Binary Symmetric Channel , BSC )。 这个二元信道的输人 
字符以概率/>互补。这是一个有误差信道的最简单模 
型，然而，它反映出了有误差信道问题的复杂度的普 
遍特点。 

在出现错误时，0作为1收到，或者正好相反 3 从 
接收到的比特中我们并不能看出哪里发生了错误。从 
某种意义上说，所有接收到的比特都不可靠。稍后将 
证明，我们仍然可以使用这样的通信信道以非0的传 
输码率发送信息，并且误差概率任意小。 图 7 _ 5 —元对称信道。 C = l - H ( p ) 比特 


给出互信息的一个界 

HX ; Y ) = H ( Y )- H ( Y \ X ) (7-2) 

= H ( V )- Ep ( a :) H ( V|X = x ) (7-3) 

= H ( Y )- l ： pU ) mp ) (7-4) 

= H ( V )- H ( p ) (7-5) 

< l - H ( p ) (7-6) 


其中 最后一 个不等式成立是因为 Y 是一个二元随机变 ft 。 当输人分布是均匀分布时等号成立。 
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因此，参数为的二元对称信道的信息容 ft 是 

C=\-H(p) 比特 (7-7) 

7.1.5 二元擦除倌道 

有一种信道类似于二元对称信道，会损失一些比特(不是被损 坏）， 这种信道称作二元 擦除信 
道 (binary erasure channel )。 在二元擦除信道中，比例为 a 的比特被擦 
除掉，并且接收者知道是哪些比特已经被擦除掉了。如图 7-6 所示， 

二元擦除信道有两个输入和三个瑜出。 

计算二元擦除信道的容嫩 如下： 

C =max/(X ； y) 

p(x> 

= max(H(y)-H(V|X)) 

= maxH ( Y) - H(a) 

初看，似乎的最大值是 log 3, 但无论选择什么输入分布 
p(x) t 都无法达到这个值。设 E 代表 事件 lY = d , 并使用表达式 

H(y) = H(y,£) = H(£) + H(Yl£) (7-11) 

设 Pr(X=l) = ir, 我们有 


(7-8) 

(7-9) 

(7-10) 



图 7-6 二元擦除信道 


因此 


H ( y ) = H((l-ir)(l-a),a,ic(l~«)) = H(a) + (l-a)H(ir) 

C = maxH( Y ) - H ( a ) 

= max( 1 - a)H(n) + H(a) - H(a) 

n 

= max(l - a)HM 


(7-12) 

(7-13) 

(7-14) 

(7-15) 

(7-16) 


其中，当 tt =1/2 时，达到该信道容量。 
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这个信道容量的表达式有其直观的 意义： 由于比例为 a 的比特在信道中损失，因而我们（至 
多〉能够恢复比例为的比特。因此，容 M 至多为 I - a 。 但码率是否真的可以达到这个值并 
不十分明显，这可以从香农第二定理推出。 

对于许多实际的信道，发送者会从接收者那里收到一些反馈。如果二元擦除信道中存在反 
馈，那么很清楚下一步该做 什么： 如果一个比特损失了，那么重新传输它，直到其顺利通过为止。 
由于所有比特以概率1 - a 通过，所以传输的有效码率就是 1- fl 。 在这种方式下，通过反馈可以 
容易地达到容量1 - a 。 

在本章后面的部分中，将证明，无论有无反馈， l _ a 都是信道可以达到的最高码率。这个事 
实令人惊讶，也就是说反馈并不能增加离散无记忆信道的容董。 


7.2 对称信道 

二元对称信道的容量是 C =1 - H ( p ) 比特/传输，二元擦除信道的容量是 C = l - a 比特/传 
输。 F 面考虑具有如下转移矩阵的 信道： 

0.3 0.2 0.5' 

p(y j )= 0.5 0.3 0.2 (7-17) 

J 0.2 0.5 0.3. 

上述矩阵中的第 a ： 行第: y 列的元素表示条件槪率 P ( dz ), 即传埔 1 收到: y 的概率。在该信道 
中，概率转移矩阵中所有的行都圬以通过其他行置换得到，每一列也如此。这样的信道称为对称 
的 ( symmetric )。 另一个对称信道的例子如 

V = X + Z (mod c ) (7-18) 

其中 Z 服从粮数集10，1,2，...，^-1|上的某个分布， X 与 Z 拥有相同的字母表，并且 Z 独立于 
Xo 

在上述两种悄况中，我们能够容易地求得信道容饿的显表达式。设 r 表示转移矩阵的一行， 

则有 

HX ； Y)=H(Y)-H(Y\X) (7-19) 

= H ( V )- H ( r ) (7-20) 

< logl^l - H ( r ) (7-21〉 

当输出是均匀分布时等号成立。而且， = 可以使 y 达到均匀分布，这可由如下式子 

看出 


p ( y ) = S I x ) p ( x ) = I x ) 


(7-22) 


(7-23) 


c I.VI * 1^ I 

其中 c 是概率转移矩阵的一列中所有元素之和。 

于是，式 (7-17) 中的信道容#为 

C = max/(X ； y) = log 3- H (0.5,0.3,0.2) 

并且当输入分布为均匀时达到上容 ft C 。 

如上定义的对称信道的转移矩阵是双随机的。在计算信道容 tt 时，我们用到了转移矩阵中 
行与行互为 S 换以及各列元素之和都相等的性质。 

基于这些性质，可以对对称信道的概念进行如下的推广： 

定义如果信道转移矩阵 / K ： yl ： r ) 的任何两行互相 S 换；任何两列也互相置换，那么称^信 
道是 对称的 （ symmetric )。 如果转移矩阵的每一行 />(• 丨 工） 都是其他每行的置换，而 所有列 的元素 
和 U P (: y 1 工） 相等，则称这个信道是弱 对称的 （ weakl y symmetric)o 


189 



110 


第 7 章 


190 


例如，转移矩阵为 



p ( y \ x )- 



(7-24) 


的信道是弱对称的，但不对称。 

上面关于对称信道的一些结论同样适用于弱对称信道。除此之外，对于弱对称信道，我们还 
有下列 定理： 

定理 7.2.1 对于弱对称信道， 

C = logl；V 卜 H (转移矩阵的行） (7-25) 

当输入字母表上的分布为均匀时达到该容量。 


7.3 倍道容置的性质 


1 . 由于 /( x ； y )^ o , 所以 c > 0o 

2. 由于 C = max /( X ； y )< maxH ( X )< log HI ，所以 \ og \ X\ Q 

3. C ^ logl ^ l , 理由同上。 

4. / U ; Y ) 是关于 pU ) 的一 个连续函数。 

5. /(义；丫)是关于/>(：1：)的凹函数(定理2.7.4)。由于 /( X ; Y ) 是闭凸集上的凹函数，因而 
局部 ft 大值也是全局 M 大值。由上述性质2和3可以看出， S 大值是有限的，这证实了在 容位的 
定义中使用 max 而不用 sup 记号是合理的。級大值可以利用标准的非线性 M 优化技术（如梯度搜 
索〉求解。下面这些方法都玎以 考虑： 

• 利用微积分和库恩-塔克条件求解带约束的掖大化问题。 

• Frank - Wolfe 梯度搜索算法。 

•由 Arimo t o [25] 和 Blahm [65] 开发的迭代算法。在 10.8 节中详细叙述该算法。 

一般得不到信道容 M 的解析解 Cclosed-form solution ), 但对于很多简单的信道， n 了以利用它们 
的特性(如对称性)来计算出信道容*。前面例子中提到过的那些信道就具有解析解。 

7.4 信道编码定理预览 

M ] 到现在为止，我们已经给出了离散无记忆信道的信息容 S 定义。在下一节中，我们将证明香 

农第二定理，它给出了容 tt 定义的可操作性解释，即容 量可以 视为能够在该信道中可靠传输的比 
特数。但首先将尝试给出一个直观思路 • 解释为什么能通过信道来传输 C 比特的信息。基本思 

路是，对于大的分组长度，每个信道可以看作是有噪声 
打字机信道（图7-4)，由此每个信道都有一个输入子集， 

使得在输出端接收到的序列基本上互不相交。 

对于输人的每个（典型的）《长序列，会有大约 
2 nH ( yix > f 可能的 y 序列与之对应，并且所有这些序列 
是等可能的(如图17)。我们希望确保没有两个 X 序列 
能够产生相同的 Y 输出 序列。 否则，将无法判断到底 
传输的是哪个 X 序列。 

所有可能的(典型的） Y 序列的总数约等于 2^ {¥) 0 
对应于不同的输人 X 序列，这个集合分割成大小为 




2 nH ( y |； o 的许多个小集合。所以不相交集的总数小于等于因此，我们 
至多可以传输个可区分的72长序列。 

虽然以上讨论只是大致描述了容童的上界，在下一节中，将用更加严格的语言来证明码率 f 
是可达到的，而且误差概率可以任意低。 

在开始香农第二定理的证明之前，我们需要一些定义。 

7.5 定义 

我们分析如图 7-8 所示的通信系统。 



图 7-8 通信信道 

取自下标集|1，2,…， Ml 的消息 W , 产生信号 X »( UO, 这个信号以随机序列V "〜 />( y*U ”） _ 

的方式被接收者收到。然后,接收者使用适当的译码规则 W = 猜测消息 W 。 如果仏与所 

传输的消息 W 不同，则表明接受者出错。下面我们严格定义这些思路。 

定义用 ( Y,p(：yU),y) 表示的离散信道由两个有限集义和 y 以及一簇概率密度函数 p ( y \ r ) 

(x€Y) 构成，其中对任意 :r 与: y , 有以及对任意的有 I ] p(y \ x ) = 1,而X和 

y 分别看作信道的输人与输出。 " 

定义离散无记忆信道 (DMC) 的 n 次扩展是 指信道(力，其中 

/>(災1乂，：/ _1 ) = />(災1工*)， 走 =1，2，...，” (7-26) 

注释 如果信 道不带反馈， 也就是说，如果输人字符不依赖于过去的输出字符，即 
p ( x k \^-\^- x ) = p ( x k \^ x ) t 那么离散无记忆信道的”次扩展的信道转移函数就简化为 

p(y* 丨 •!"） = ll /»( 乂 丨工.） （7-27) 

在讨论离散无记忆信道时，除非明确指出，一般都4指不带反馈的离散无记忆信道。 

定义信道 ( A \ p (： y | x ),； V ) 的 （M,；!) 码由以下部分 构成： 

1. 下标集11,2,…， M)。 

2. 编码函数 X":|l,2, …， AfK -, 生成码宇: r"(l),?(2), …,？ （M)。 所有码字的集合称 

作码簿 (codebook)。 QH 

3. 译码函数 

(7-28) 

它是一个确定性规则，为每个收到的字符向最指定一个猜测。 

定义（条件误差概率）设 

A, = p r (g( r)^i I X" = x "(0) = Sp(y I x "( i ))/( g(y )^ 0 (7-29) 

y 

为已知下标:•被发送的条件下的条件误差概率 （conditional probability of error〉， 其中 /(•〉 为示性 
函数。 

定义 （M，《〉 码的最大误差概牟 A (n) (maximum probability of error) 定义为 

A ( n >= M M ) A ， 

定义 （M， m ) 码的（算术）平均误差概率 F^ n) (average probability of error) 定义为 


(7-30) 






( 7 - 31 ) 


注意，如果下标 W 是从集合11,2,…， Ail 中的均匀分布中选出的，以及 X " = x ”（ W )， 则 

p ( n ) A p r( ^^ yn )) (7-32) 

(即尸卜为误差概率。）显然，有 

P [ n) < A (n) (7-33) 

人们一般期望，最大误差概率与平均误差槪率的性质有相当大的差异。然而，在下一节中我们将 
HE 证明，在相同的码率下，平均误差概率很小可以推出它的 M 大误差概率也很小。 

值得注意的是，式 (7-32) 中定义的 P …仅是条件误差槪率的一种数学构造，它本身成为 
误差概率只有当消息均匀取自消息集 U ,2, 时才成立。然而，不论是在可达性的证明中， 

还是其逆命题中，都选取 W 上的均匀分布来界定误差槪率。这使我们能够确定以 及铋大 
误差 概率厂 的行为，从而，不论信道是如何使用的，也能刻両出信道的行为（即不考虑的分布 
是什么〉。 

定义 （ M ， r *) 码的码芈尺 （ rate ) 为 

/? = _比特/传输 (7-34) 

n 

定义如果存在一个(「2^1, ” ) 码序列，满足当时， M 大误差概率 A ( w ) — 0,则称码率尺 
是可达的 （ achievable ) 。 

为简化记号，以下我们将用码来表示(「2"^1,”)码。 

定义信道的容量定义为所有可达码率的上确界。 

于是，对于充分大的分组长度，小于信道容 ft 的码率对应的误差槪率可以任意小。 

7.6 联合典型序列 

粗略地说，如果码字 X "(«) 与接收到的信号 V "是“联合典型”的话，就将信道输出 V "译为 
第/个下标。现在来定义联合典型这一重要的概念，并且计算当 V "确实由产生与不是由 
X"(I) 产生时，这两种情况所对应的联合典 s 概率。 

定义服从分布 Mu ) 的 联合典 型序列 iu ”, yMi 所构成的集合 a 卜是指其经验熵与其实 

熵 e 接近的《长序列构成的集合，即： 

rj^i -^ log />( x ")- H ( X ) <e (7-35) 

一丄 bg/Ky^-my) ◊ (7-36) 

n 

- 士 logpU” ， y) - H(X, y)|<c| (7-37) 

其中 

p(x\^) = J\pU i9 yi) ( 7 - 38 ) 

f»I 

9 

定理 7 6 _ i ( 联合 aep ) 设 ( x ^. y 71 ) 为服从 /» u "， y ) = n / >(々， 乂）的〖」』的 《 长序列， 
那么： 

1.当 /2一⑺时， PK ( X \ r ) eA 卜)—1。 



2. |A^|<2” (H(x . y) + ， > 0 

3. 如果(又”， P) 〜/ >u n )/>(y ), 即又”与 P 是独立的且与 M/.y) 有相同的边际分布，那 


而且，对于充分大的72, 


证明： 


p r ((x",y n )eAj n) x 2 -" (,<x；y) " 3 * ) 

PraX \ Y n )^ A [ n) )^ (l-e)2-" </UiV> + 


(7-39) 


(7-40) 


1. 首先证明，包含在典型集中的序列具有很高的槪率。由弱大数定律， 

-丄 log/>(X"〉--£[logpU)] = mX ) 依概率 
n 

因此，给定 e >0, 存在使得对于任意 n > n ,. 

Pr ( -^ log />( X ")- H ( X ) > e)<j 


(7-41) 


(742) 


类似地，由弱大数定律, 


-丄 log/>(V ")— - £[ logp ( y )] = H ( y ) 依概率 


以及 


(7-43) [196 


-丄 log/KX", Y ")—- £[ logpU , y )] = HU , y ) 依概率 （7-44) 

n 

从而，存在; i 2 和 n 3 ，使得对于任意” 2 , 

Pr(| -^-log/>(r)-H(y) (7-45) 

以及对任意的 n 3 , 

Pr (| --J-log/>(X".y")-H(X,y) >e)<-| - (7-46) 

选取 n>max(；!,,〜，n 3 ), 则式 (7*42)、（7-45) 和式 (7-46) 中的集合之并的概率必定小于 e。 因 
此，对于充分大的”，集合 A 卜的概率大于 1-e, 从而证明了定理的第一部分。 

2. 为证明定理的第二部分，我们注意到 

1 = E />(〆,/) (7-47) 

> (7-48) 


(7-45) 


(7-46) 


(n) I 


> I AJ”，I 2- 


(749) 


因此 


I A<"> |<2" (H(x ' y)+c) (7-50) 

3. 现在，如果又”与 r 相互独立，但是与X"和V"分别具有相同的边际分布，那么 

PKCX",?") e A [ n) ) = E P ^ n ) p ( f ) (7-51) 


( 2»<h(x. v)+c)2-»(h(x)- 

对充分大的 n , Pr ( A [ n) ) > 1 - e， 因此 

l-e< E P ( x \ y ) 


(7-52) 

(7-53) \ J 97 


(7-54) 




114 


第 7 聿 


< I A [ n) I 2'" (H(x * Y) * e, (7-55) 

以及 

I A [ n) (1 - e )2 n(H(X ' y) - e) (7-56) 

类似上界估计的讨论，也可以证明，对充分大的 n , 

Pr (( X % r i ) € A [ n) ) = (工”) P ( y ) (7-57) 

> (1 一 g y)-c)2~«(H(X) + c )2~"( H ( Y)+«) (7-58) 

=(1 - £)2~" (,<Xjy>43<) (7-59) 口 

图 7-9 是关于联合典型集的示意图。大约有2# <; °个典型的 X 序列和大约 2"« ( y ) 个典型的 Y 
网 序列。但是，联合典型序列只有 2# < x ’ y > 个，所以并不是所有典型的； T 与典型的 V "构成的序列 
对都是联合典型的。随机选取的序列对是联合典型的概率大约为 r ” KX ; y > 。 因此，我们很可能需 
要考虑约 2” f < x ; y > 个这样的序列对，才可能遇到一个联合典型对。这表明存在大约 2” i(Xiy> 个可区 
分的信号 X "。 



图 7-9 联合典《序列 

着眼上述问题的另一种方式是考虑固定输出序列 V "下的联合典型序列集，这里假定该输出 
序列来自真实的输人信号 X %对于序列 V "，大约存在个条件典型的输人信号。某个随 
机选取的(其他）输人信号 X "与 V "为联合典型的概率大约等于 2" H ( X ， V ) /2^ H(X, = 2-” MX:y〉 。这 
再次表明，我们可能选取出大约 2” /( x : y ) 个码字才能使其中的一个码字与产生输出 V " 
的对应码字混淆起来。 

7.7 倍道编码定理 

我们现在证明信道容 M 的可达性，这也许是信息论中最基本的定理。最初的证明由香农在 
1948年的开创性论文中给出。该结果与直观感觉正好相反。如果在信道传输过程中存在误差， 
那么如何纠正所有误差？任何纠错过程本身也要受到误差的影响，这样将无穷无尽地进行下去。 

为了证明只要码率小于信道 容*， 信息就可以通过该信道可靠地传输，香农使用了许多新的 
思想。这些思想 包括： 

• 允许任意小的非0误差槪率存在， 

• 连续使用信道许多次，以保证可以使用大数定律， 

• 在随机选择的码簿上计算平均误差概率，这样可以使概率对称，而且可以用来证明至少 
存在一个好的编码。 
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香农的概述性证明基于典型序列的思想，其严格的证明直到很晚才给出。下面将要给出的 
证明利用了典型序列的性质，而且可能也是至今为止给出的最简单的证明。在所有的证明中，都 
使用了相同的基本思想一随机码选择，计算随机选择的码字的平均误差概率，等等。主要的差 
别在于译码规则。在这个证明中，我们使用联合典型性译码规则，即寻找一个与收到的序列是联 
合典型的码字。如果找到惟一满足该性质的码字，我们则认为这就是被发送的码字。依据前面 网 
所述的联合典型性的性质，由于发送的码字与接收到的序列是概率相关的，所以它们以很髙的概 
率成为联合典型。并且，任意其他码字与接收到的序列是联合典型的概率是2_""。因此，如果码 
字个数小于2、那么可以以很高的概率断定不会有其他的码字能够与被传输的码字相混淆，并 
且误差概率很小。 

虽然联合典型译码仅是次优的，但它便于分析而且可以达到小于信道容章的任何码率。 

下面就给出香农第二定理的完整叙述及其 证明： 

定理 7.7.1 ( 信道编码 定理） 对于离散无记忆信道，小于信道容量 C 的所有码率都是可达 
的。具体来说，对任意码牟 R < C ， 存在一个 (2以，；1) 码序列，它的最大误差概车为 A —40。 

反之，任何满足 A ( n ) — 0的（2必，《)码序列必定有 Co 

证明： 证明小于 C 的码率 R 是可达的，而将逆定理的证明放在 7.9 节。 

可 达性： 固定 p (: r ), 根据分布 />(•!：) 随机生成一个码。具体来说，根据分布 

p ( x n ) = ]] />( x f ) (7-60) 

• «1 

独立生成2#个码字。将2#个码字展开为矩阵 的行： 

- x . d ) x 2 ( i) … ^(D - 
C = : : •. : (7-61) 

o:〆 〉 x 2 (2 ， … x n (2^). 

该矩阵中的每一项都是依据 i . i . d 服从 M ： r ) 而生成的。因此，我们生成一个特定码 C 的概率 

就是 

Pr ( C ) = fl lJ /»( x ,( u ；)) (7-62) 國 

考虑下面的系列亊件： 

1. 如式 (7-62) 中所述，服从分布/>(工)的随机码 C 生成。 

2. 然后将码 C 告知给发送者和接收者，并且假定二者都知道该信道的信道转移矩阵 
/ >(>>1 x )0 

3. 依如下的均勻分布选取一条消息 W 

Pr ( W = w ) = 2 - nl< t 切=1,2,."，2必 (7-63) 

4. 第 u ; 个码字 X "( u ;) 是 C 的第 u ； 行，通过该信道被发送。 

5. 接收者收到的序列 V "服从分布 

P ( y n I ar n ( tr )) = H />(>», I x ,( xt »)) (7-64) 

6. 接收者猜测所发送的消息是什么。（使误 ik 率达到最小的最优方法是最大似然译码，也 
就是说，接收者应该选择后验 U posteriori ) 槪率最大的消息。但是这个过程很难分析。取而代 
之，使用下面描述的 联合典型译码 (jointly typical decoding )。 这种方法易于分析而且是渐近最优 

的。)如果满足下面的两个条件，则接收者认为以就是所发送的下标。 

• ( X (^0， Y ") 是联合典型的。 




• 不存在其他的下标 W ' 关 W 满足 （ X "( W '>, Y ")€ A 卜。 

如果这样的佑不存在，或者有超过一个这样的则断言发生了错误(在这种情况下，假定 
接收者给出一个哑下标，例如0)。 

7. 如果佑关 W , 则说明译码错误，设^代表 事件 
误差概率分析 

概述： 我们首先简要分析一下。我们计算所有随机生成的码(服从式 (7-62) 的分布)的平均误 
_差概率，而不是某一个码的误差槪率。根据编码构造的对称性，平均误差概率不依赖于被发送的 
具体下标。对一个典型码字，在使用联合典型译码时，存在两种不同的误 差源： 输出 V "与被传 
输的码字并不是联合典型的，或者存在其他码宇与 V "是联合典型的。正如证明联合 AEP ， 被传 
输的码字与接收到的序列是联合典型的概率趋于 1。 对任意一个竞争码字，它与接收到的序列是 
联合典型的概率大约为2_^,因此，可以使用大约^"个码字，并且仍然保持很低的误差概率。 
稍后我们会推广这个论述来寻求一个码使得掖大误差槪率很低。 

误差概率的具体 计算： 设 W 服从2#|上的均匀分布，并且利用步骤6中描述的联 

合典型译码 W ( y *)。 设 f =| W ( V ") 关 W | 表示误差事件。现在计算平均误差概率，这里的平均 

取自码簿中的所有码字以及所有码簿。也就是计算 

? r (£) = SPr ( C ) Pi " , ( C ) (7-65) 

c 

= EPr(C) ^f ： A w (C) (7-66) 

c z «_i 

=^ Pr ( C ) A U ( ( C ) (7-67) 

2 «•! C 

其中 P \ n ) ( C ) 是针对联合典咽译码定义的。根据码构造的对称性，取自所有码上的平均误差概率 

并不依赖于发送的具体下标，也就是说， ^ Pr ( C ) A w ( C ) 不依赖于 加。 于是，不失一般性，可以假 

c 

定发送的消息是 W = 1，这是由于 

Pr (5) = pij 2 Pr ( C ) A w ( C ) (7-68) 

= SlMOAjC ) (7-69) 

c 

= Pr(f \ W = l ) (7-70) 

定义下列 事件： 

[202] £,= |(們0，^*)在4” > 中|， (7-71) 

其中 E , 表示第 f 个码字与 V " 为联合典型的这一事件。回忆一下， V "是在信道上发送第一个码 
麥; T ( l ) 而得到的结果。 

如果 Q 发生 （ 当传输的码字与接收到的序列是非联合典型时），或者£ 2 UE 3 U … U 发生 
(当一个错误的码字与接收到的序列是联合典型时），则在译码时会出现错误。因此，设 P ( S ) 表 
示 PKfl W = l ), 根据事件之并，我们有 

Pr ( S \ … U £： 2 … w = l ) ( 7 _ 72) 

2 * 

< P(E] I W = 1) + I VV = 1) 

«*2 


(7-73) 
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由联合 AEP 的性质， P(£ f ,)-0, 因而 

P(£*il W=l)< e 对充分大的 n (7-74) 

从编码的生成过程可以看出， ；T (1) 与关 1) 是独立的，所以 V "与; T(0 也是独立的。因 
此，根据联合 AEP 的性质，X"⑺与 Y " 是联合典型的概率从而，如果 n 充分 


大且 R < nX ; Y )_3 e 时， 

2 - 

Pr (£) = Fr (£ I W = IX P (£ r , I = 1) + X ； P ( E f \ W = l ) (7-75) 

• -2 

< e + S2-- (,(x；y) ~ 3e) (7-76) 

=e + (2^ - l)2-" U(x；y) ^ 3,) (7-77) 

< c + 2 ym 2' nUiXiY) ' R) (7-78) 

< 26 (7-79) 


因此，如果尺 </(X;Y), 可以选取适当的 e 和 n, 使得取自所有码簿和码字上的平均误差概率 
小于 2e。 

为了完成这个证明，通过选取一系列码来加强该结论。 

1. 将证明中的 pU 〉 变为， ( x ), 即达到信道容最时关于 X 的分布。此时，条件/?< 
I(X ； Y) 口了由口了达性条件 R<C 所替代。 

2. 去除码簿上的平均。由于在所有码簿上的平均误差槪率比较小 (<2e), 所以至少存在一 
个码簿 C •具有小的平均误差槪率。于是， /^( flC-K 2 e 0 若想找到 C •可以穷举搜索所 
有的 (2〜， W ) 码。注意到 

Pr (£： IC-) = (7-80) 

这是因为我们以式 (7 63) 中给定的均匀分布选取 W 。 

3. 拋弃最 佳码簿 C ’ •中 M 差的一半码字。由于这个码的算术平均误差概率小于以， 
我们有 

Pr(f|C-)< 2c (7-81) 

这说明至少有一半的下标 * •及其对应的码字的条件误差槪率 A , 小于 4 e (否则，这些 
码字本身的和就将大于 2 e )。 因此，所有码字中最佳的一半的最大误差概率必定小于 4 e 。 

如果重新检索这些码字，会有个码字。拋弃一半码字使得码率由只变为只-士，当 
n 充分大时，这是可忽略的。 

结合所有这些改进，我们已经构造了一个码率为 IT = R - 士的码，它的最大误差概率 A (B) < 

4e 。 这就证明了任何小于信道容童的码率都是珂达的。 □ 

可以看出，随机编码是证明定理 7.7.1 的方法，而不是发送信号的方法。在证明中码被随机 
选择仅是为了达到数学上的对称性以及一个好的确定性码的存在性。我们证明了分组长度为” 
的所有码上的平均有较小的误差槪率。通过穷举搜索，也可以找到这个集合中的最佳码。顺便 
提及一下，这也表明了最佳码的科尔莫戈罗夫复杂度（见第 14 章）是一个小常数。这意味着将最 
佳码^告知发送者和接收者(在步骤2中)并不需要使用信道。发送者与接收者仅需要同意在信 
道中使用最佳(2#巧）码就可以了。 
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虽然这个定理说明了对于大的分组长度，存在误差槪率任意小的好码，但它并没有提供一种 
204] 构造最佳码的方法。如果使用定理证明中的方法，根据适当的分布随机地生成一个码，那么对于 
充分大的分组长度，这样构造出来的编码可能是很好的。然而，由于该编码中缺乏某个结构，译 
码将是非常困难的(简单的査表方法也需要一个指数级大小的表）。因此，这个定理并不能提供 
一个实际的编码方案。自香农在信息论方面的幵篇之作问世以来，研究者们试图发掘易于编和 
译的构造性编码。在 7.11 节将讨论一种最简单的代数纠错码一汉明 （ Hamming ) 码，它能在每 
个比特分组中纠正一个错。自香农的论文发表以来，各种各样的技术涌现出来用于构造纠错码, 
特别是 turbo 码接近了高斯信道容量。 

7.8 零误差码 


在允许完全无误差的情况下，审视上面定理的论证过程，显然可以极大地启发我们对于逆定 
理的简要证明。首先证明蕴含结论尺< C 。 假定有一个零误差概率的(2必，《)码，也就 
是说，译码器榆出的 g ( Y ") 以概率1等于輪入的下标 W 。 那么，输入下标 W 完全由输出序列决 
定（即 H ( W | V ") = 0)。 为了获得更强的界，随意假定 W 服从|〗，2, 上的均匀分布，于 


是， H ( W )^ nR 0 从而，我们有如下的一串不等式： 

nR = H ( W ) = H ( W ] y ") + /( W ； r ) (7-82) 

' ^0 * 

= UW ； Y n ) (7-83) 

(7-84) 

/(X f ； y,) (7-85) 

<■1 

{ <nC (7-86) 


其中 ( a ) 由数据处理不等式推出（由于 W — P 形成马尔可夫链）， （ b ) 会在引理 7.9. 2中 
借助离散无记忆假设得到证明， （ c ) 直接由（信息）容 ffl 的定义推出。因此，对任何岑误差的 
(2#，”）码及所有的 n ， 

歷 I C (7-87) 

7.9 费诺不等式与编码定理的逆定理 


下面将零误差码的证明过程推广到具有非常小误差概率的编码。证明中需要的新工具就是 
费诺不等式，它依据条件熵给出误差概率的下界。回忆一下费诺不等式的证明，为便于参考，将 
它重述如下。 

先给出一些定义。下标 W 服从集合 W= 11,2, 上的均匀分布，序列 Y" 与 W 是概率 
相关的。通过 V "来估计被发送的下标 W 。 设* = #(7">为其估计，那么， 

W 形成马尔可夫链。注意到误差概率为 

p T (W^W) = pEA, = P { e H) (7-88) 

我们先给出下面的引理，它的证明在 2.10 节中。 

引理 7.9. U 费诺不等式）设离散无记忆信道的码簿为 C ， 且输入消息 W 服从2 必上 的均勾 
分布，則有 


H(W| W)< 1 + P ( e n) nR 


(7-89) 
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证明： 由于 W 服从均匀分布，则有 />〖”> = ?!( W 參 W)。 对大小为2沾 的字母表中的 W 应用 
费诺不等式(定理 2.10.1), 可得到引理的证明。 □ 

现在证明下面的引理，它说明如果多次使用离散无记忆信道，每次传输的容量并不增加。 
引理 7.9.2 设 V" 为； T 经过 容量 C 离散 无记忆信道传输所得到的输出信号。则 

nC 对于任意的 /)(x”） (7-90) 

证明： 由离散无记忆信道的定义，仅依赖于X,而与其他所有变量都是条件独立的。所以有 


I ( X n ; Y n ) = H(V") - mr* 1 X") 

(7-91) 

= h (Y") - Emv, 1 y^-sy.-i.x-) 

• -1 

(7-92) 

=H(Y")- Smy, 1 X,) 

(7-93) 

继续该系列不等式，我们有 


/(w) = mr*)- i x.) 

I 讎 l 

(7-94) 

< Smv,)- limy, i x.) 

•■I i«l 

(7-95) 

=S/(x,；y,) 

(7-96) 

■ * 暴 

< nC 

(7-97) 


其中式 (7-95) 基于如下亊实 得到： 一族随 机变景 的熵小于各自熵的和。式 (^97) 直接由容 ffl 的定 
义推出。这样，就证明了多次使用信道并不增加每次传输的信息容诳比特。 □ 

现在我们已经有充分的准备来证明信道编码定理中的逆定理。 

证明： 定理 7.7.1( 信道编码定理）的逆定理。 我们要证明，对任何满足 A (n> — 0的(2必，”）码 
序列，必有 i?<C。 如果最大误差概率趋于0,那么这个码序列的平均误差概率也趋于0,即 
A ( ”> 一 0组含 -0, 其中尸卜的定义见式(7-32)。对固定的编码规则 XM •) 和固定的译码规 

则 W = ^(Y"), 我们有 VV—X"(W) — V" — W。 对每个 n, 设 W 服从11，2，“，,2成|上的一个 
均匀分布。由于 W 服从均匀分布，故 PKW 关 W) = 因此， 


nR ^ H ( W ) (7-98) 

=H( W| W) + I(W ； W) (7-99) 

<1 + P\ n) nR ^I(W ； W) (7-100) 

<1 + Pi n) nR + J(X"; Y") (7-101) 

<1 + P[ n) nR + nC (7-102) 


其中， （a) 由 W 服从 11,2, … ,2^1 上的均匀分布假设推出， （b) 是一个恒等式， （c〉 是由于 W 至 
多可取2成个值而获得的费诺不等式， （d) 为数据处理不等式，而 （e) 由引理 7.9.2 推出。两边同 
除 rz, 得到 

P<")/? + i + C 

现在令则不等式右边的前两项趋于0,因此 
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207 


(7-103) 
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可以将式 (7-103) 改写为 


狀 C 


一 


1 


(7-104) 

(7-105) 


该式表明，当尺 > C 时，对充分 大的心 误差概率无法接近于 0( 从而对所有的 n 都是成立的，因 
为如果对小的”有/^” > = 0,那么通过串联这些码来构造对大的 n 也满足 P ^=0 的码）。因此， 
当码率大于容量时，不可能达到任意低的误差概率。 □ 

上述逆定理有时称作信道编码定理的弱 逆定理 （weak converee ) 0 也可以证明 一个强逆定理 
(strong converse ), 它说明当码率大于容量时，误差概率以指数级趋于1。因此，信道容 ft 很明显 
是一个分界点——当码率小于容景时，以指数级有 Pi n ) -0; 而当码率大于容 章时， 以指数级有 
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我们已经证明了信道编码定理和它的逆定理。从本质上讲，这些定理表明当尺 < C 时，可以 
以任意低的误差概率传输 信息； 而当时，误差槪率将远离0。 

探讨逆定理中的等式成立的结果是一件很有趣而且有价值的事情，这有望启发我们找出达 
到信道容 ft 的编码。在6 = 0的情况下，重复逆定理中的步骤，我们有 


= H ( W ) 

(7-106) 

= H(W I W ) + 1( W ； W ) 

(7-107) 

= I ( W ；\ V )) 

(7-108) 

</(x"(w)5y") 

(7-109) 

= H(D - Her l X 1 ) 

(7-110) 

= H ( Y ")- SH ( y f 1 X ,) 

• •1 

(7-111) 

<SH(y,)- s H(y, 1 X f ) 

••1 

(7-112) 

= S/tx^y.) 

(7-113) 

<c) 

<nC 

(7-114) 


只有当 /( y \； T ( w )| w ) = o 以及 /(; r ; y "| W ) = o 时，数据处理不等式 U ) 中的等号才成立。 
如果所有码字都不同，而且 W 是译码的一个充分统计 M ， 这是成立的。只有当相互独立时， 
( b ) 中等式才能 成立； 只有当 x , 的分布是 /»•(•*：) 时，即达到信道容 M 的 x 上的分布时， （ c ) 中等 
式才能成立。所以，只有当所有这些条件都满足时，才能得到逆定理中的等式。这说明对于达到 
信道容量的零误差码，其码字必须互不相同，且所有 K 的分布 i . i . d . 服从 

〆 （: y ) = 乂 〆 （ I 工） （7-115) 

这是由 X 的最优分布导出的 Y 分布。在逆定理中涉及到的分布是由码字上的均勻分布诱导出的 
X 和 Y 的经验分布，即 / 

= Xi)p(yi I X,) (7-116) 

Z u-»l 

我们可以用一些达到信道容 tt 的编码例子来检验这一结果： 
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1. 有噪声打字机信道。 此时，输人字母表是由26个英文字母构成的，每一个字母能够正确 
地输出，或者变为下一个字母的概率均是1々。达到信道容量 Oogl 3 比特）的一个简单码 
是使用间隔的输入字母，这样就不会使两个字母相互混淆。此时，就有了 13个分组长度 [209 
为1的码字。如果挑选出其中一些码字的 i . i . d 服从11,3,5,7,…，251上的均匀分布，那 _ 
么正如我们所期望的，这个信道的输出也是 i . i . d . 服从|1,2，〜,26|上的均匀分布。 

2. 二 元对称信道。 由于对给定任意输入序列，每一个可能的输出序列都具有正的概率，所 
以即使只有两个码字也不可能以零误差槪率区分开它们。故 BSC 的零误差容 M 是0。然 
而，即使在这种情况下，还是可以得出一些有用的结论。有效码仍然可以导出关于 Y 的 

分布，使得 y 看起来是 U . d . 服从 BcrnouUid ^。 并且，从逆定理的证明中也可以看出， 

当码率接近信道容 量时， 利用对应于码字的译码集，已经几乎完全覆盖了所有可能的输 
出序列的集合。当码率大于信道容 M 时，译码集变得相互重叠，并且误差概率不可能再 
任意小。 


7.11 汉明码 

信道编码定理使用分组码的方案。如果分组长度足够大的话，当码率小于信道容獗时，可以 
用分组码以任意低的误差概率传檐信息。自香农开创性的论文 [471] 问世以来，人们一直在寻找 
这样的码。除了要达到低的误差概率之外，实用的编码应该是“简单”的，以保证它们可以有效地 
编码和译码。 

自香农1948年开创性的论文发表以来，为了寻找简单而优秀的编码工作已经持续了很长的 
时间。在寻找的过程中，人们发展出了一套完整的编码理论。我们无法逐一描述自从1948年以 
来所发明的众多梢致而且»杂的编码方案。在这里仅介绍由汉明开发的一种垴简单的方案 
[266] o 它可以说明大多数码所共有的一些《基本的思想 3 

编码的目的是通过增加冗余使得在一些信息损失或者损坏的情况卜仍可能由接收者恢复出 
原始的消息。 M 显而易见的一种编码方案是重复信息。例如，为发送一个1,我们发送 um , 为 
发送一个0,我们发送_0。这一方案使用5个字符来传输1比特，因此码率为1/5比特斥符。 

如果在二元对称信道中使用这样的码，最优的译码方案就是将接收到的每个5比特分组译为其 
中占多数的比特。如果3个或者更多的比特是1,我们则将这个分组译 为丨； 否则将其译为0。当_ 
且仅当超过3个比特发生改变时，才会出现错误。通过使用更长的重复码，可以达到任意小的误 
差概率。但是，随着分组长度的增加，码率也趋于0,因此，一个“简单的”编码，不一定是一个非 
常实用的编码。 

替代这种简单的重复比特方法，可以用某种巧妙的方式将比特联合起来，使得每一个额外的 
比特都可以用来检验某个信息比特子集中是否发生错误。一个简单的例子就是奇偶校验码。从 
m -1 个信息比特的分组出发，选取第”个比特，使得整个分组的奇偶校验数为 0( 分组中1的个 
数为偶数)。这样，如果在传输过程中发生了奇数次错误，那么接收者将能够注意到奇偶性的变 
化，并察觉到错误。这是检错码 ( error-detecting code ) 的最简单的例子。该编码既不能察觉到出现 
偶数次错误，也不能提供任何有关纠正这些错误的信息。 

我们可以推广奇偶校验的思想，允许存在多个奇偶校验位，也可以允许奇偶校验依赖于各种 
各样的信息比特子集。下面将描述的汉明码是奇偶校验码的一个例子。利用线性代数中的一些 
简单思想来描述它。 

为说明汉明码的基本思想，考虑分组长度为7的二元码。所有的运算都是模2运算。考虑所 
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有长度为3的非0二元向量的集合，以它们为列向董构成一个矩阵： 

0 0 0 1 1 1 1 " 

H = 0 1 1 0 0 1 1 (7-117) 

J 0 1 0 1 0 1. 

考虑 H 的零空间（即与 H 相乘得到000的向 M ) 中长度为7的向董的集合。由线性空间理论，因 
为 H 的秩为3,故期望 H 的零空间的维数为4。这2 4 个码字如下 

0000000 0100101 1000011 1100110 
0001111 0101010 1001100 1101001 


0010110 0110011 1010101 1110000 
0011001 0111100 1011010 1111111 

_ 由于这个码字集是矩阵的零空间，所以从任意两个码字的和仍是一个码字的意义上看，这是 

HD 线性的。因此，码字集形成7维向*空间中的一个4维线性子空间。 

观察这些码字，不难注意到除了全是0的码字外，任何码字中1的最小数目为3。该最小数 
称为码的最 小重量 (minimun weight )。 可以看出，由于 H 的所有列互不相同，没有两列的和可以 
为000,因此码的 最 小重被 至少为3。基于任意两列的和必然为该矩阵中某一列的事实，我们可 
以推出最小距离恰好为3。 

由于该码是线性的，任意两个码宇的差仍是一个码字，因此，任意两个码字之间至少在3个 
位置 上有所不同。两个码字不同的最小位 R 数称为该码的最 小距离 （minimum distance )。 码的最 
小距离是用来表示码字之间相隔多远的一个度*,并且可以决定在信道的输出端码宇之间差异 
的程度。对线性码来说，最小距离等于最小重贵。我们的目的是设计出最小距离尽可能大的码。 

上述码的最小距离是3。因此，如果码字 c 仅占一 个位置 损坏，那么产生的新字符串将与其 
他任何码字之间至少在两 个位置 上是不同的，它与 c 更加接近。但是，是否可以不通过穷举搜索 
就可以发现哪一个是距离 M 近的码字呢？ 

回答是肯定的，可以利用矩阵 H 的结构译码。矩阵 H 称作 奇偶校验矩阵 （parity check 
matrix ) 并具有如下 性质： 对任意码字 c 均有 Hc = 0。 设 e , 是第； 个位*为1其余位 》 为0的向 
M 。 如果码字的第*•个位 S 损坏，则接收到的向罱为 r = c + e ,。 如果将矩阵 f / 与这个接收到的 
向堆 相乘，则得到 

Hr= H(c + C, ) = He + He , = He , (7-118) 

这正好是 H 的第:•列 向最。 因此，通过计算 Hi •，就可以发现接收向量的哪一个位置损坏了。还 
原该位置上的值就得到一个码字。这样就有了一个简单的程序用来纠正接收序列中的一个错误。 
我们已经构造出分组长度为7的16个码字组成的码簿，它能纠正至多一个错误。这个码 就是汉 
明码 (Hamming code )。 

至此，我们还没有给出一个简单的编码程序；酊以考虑16条消息的集合到码宇集合的映射。 
但是，当仔细检査表中所有码字的前4位之后，将会观察到它们正好构成了 4个比特的所有2 4 种 
组合。于是，可以将这 4 个比特看作是要发送消息的4个比特，而另3个比特由编码决定。对于 
[212| 一般情形，将线性码进行修改，可以使得映射更加 明显： 让码字中的前々个比特代表消息，而后 
面 w - 々个比特留作奇偶校验位。这样得到的编码称作 系统码 (systematic code )。 该码往往由它 
的分组长度 n , 信息比 特数々 以及最小距离^三个参数来确定。例如，上述编码称作(7, 4 , 3) 汉 
明码，即 rz =7, 灸=4和3 = 3。 

可以利用简单的文氏图 (Venn Diagram ) 表示来解释汉明码的工作原理。考虑如下文氏图，它 
有三个圆和四个相交区域，如图 7-10 所示。为了发送信息序列1101,将序列中的4个信息比特 
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分别放在图中四个相交的区域中。然后在三个剩余的区域中各放置一个校验位使得每个圆中的 
校验为偶数(即每个圆中有偶数个1)。于是，校验位就变成如图 7-11 中所示。 

现在不妨设其中的一个比特被改变了。例如，图 7-12 中有一个信息比特从1变成了 0。此 
时，有两个圆违背了原先的校验约束（图中加黑部分)。因而，当我们知道了这两个约束违背，不 
难看出，导致产生约束违背的这个单一的比特错误只可能在两圆的相交部分发生（即改变的那个 
比特)。类似地，通过分析其他情形，也不难看出，这种码可以检测并纠正发生在接收到码字中 
的任何单个比特错误。 




图 7-11 每个圆的信息比特与 
带偶校验的校验位的文氏图 



阁712 —个信息比特改变 
后的文氏图 


很容易推广这一程序来构造更大的矩阵 H 。 一般来说，如果使用矩阵 H 中的/行，那么所 
得编码的分组长度为 k = 2 l - l - l , 以及 fi 小距离为3。所有这些码都称作汉明码，并 
可以纠正一个错误。 

汉明码是所有线性奇偶校验 码中城 简单的例子。通过汉明码说明了构造其他线性码的基本原 
则。但是，当分组长度较大时，分组中很可能会出现不止一个错误。在20世纪50年代早期，里德 
( Reed ) 和所罗门 ( SokfiKxi ) 针对非二元信道，发明了一类多重纠错码。20世纪50年代 后期， Boee , 
Ray-Chaudhuri [72] 和 Hxquenghem [278] 利用伽罗瓦 ( Galois ) 域论推广了汉明码的思想，从而构造出 
针对任意 t 的/纠错码(称作 BCH 码)。自那时起，许多作者开发出了许多其他的编码以及这些码 
的有效译码算法。随着集成电路技术的发展，现在已经可以在硬件中实施相当复杂的编码，并且 
能够部分实现香农的信道容量定理中所预言的纠错能力。例如，所有 CD 播放器都配》有基于两个 
交织的 ( interleav «0(32,28,5) 和 (28,24,5) R - S 码的纠错电路，可以纠正大约4000个脉冲错误。 

上面描述的所有码都是 分组码 (block code ) ——将一组信息比特映射成一个信道码字，且 
不依赖于过去的信息比特。也珂以设汁出这样 的码： 每个输出组不仅依赖于当前的输人组， 
而且依赖于过去的一些输人组。这种码的一个高级结构化的形式称作卷积码 （convolutional 
code )。 卷积码理论在过去的40年里得到了相当大的发展。这里不再深人讨论，但是有兴趣 
的读者可以参考编码理论的教科书 [69, 356]。 • 

在设计出的编码算法当中，经历了很多年，没有一种编码算法能够接近香农信道容最定 
理中所给出的界。对一个交叉概率为 p 的二元对称信道，我们需要一种码，它能在长度为” 
且占；2(1 - H ( p )) 个信息比特的分组中纠正多达个错误。例如，在长度为”的分组中， 
前面提及的重复码可以纠正多达 w /2 个错误，但是它的码率随着”的增大而趋于0。在1972 
年以前，对于能够在长度为〃的分组中纠正加个错误的编码，它们的码率都渐近于0。而到 
1972年 ， Justesen [301] 设计出了一类码，具有正的渐近码率和正的渐近最小距离，并且都与 
分组长度成正比。 
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到了 1993年， Berrou 等人在文章 [57] 中提出了下列 观点： 将两个交织卷积码与一个并 
行协作的译码器组合起来能获得远比此前任何码更好的效果。每个译码器将自身对每个比 
特值的“意见”反馈给另一个译码器，并利用该译码器的意见来帮助确定自身的这个比特值。 
这种迭代过程不停地重复，直到两个译码器都对比特的取值达成共识为止。令人惊讶的是， 
这个迭代程序对于许多信道都能在接近于容 ft 的码率下进行有效地译码。这也重新提升了 
学者们对 Robert Gallager 在其学位论文 [231, 232] 中引人的低密度奇偶性校验 （ low-density 
parity check , LDPC ) 码的研究兴趣。1997年 ， MacKay 与 Neal [368] 证明了对于 LDPC 码， 
迭代的消息传输算法(类似于用来译解 turbo 码的算法)可以使码率以很高的概率达到信道容 
_量。至今， uirbo 码与 LDPC 码仍然是研究的热点，并且应用在无线通信和卫星通信信道中。 

7.12 反馈容置 


带反馈的信道如图743所示。假定所有接收到的字符立即以无噪声的方式传输回发送 
者，这样，发送者可以利用它们来决定下面将要发送哪一个字符。反馈会给我们带来好处 
吗？令人吃惊的是，回答为否定。现在来证明。我们把(2'«) 反馈码 (feedback code ) 定义 
为一个映射序列:和一个译码函数序列 ll ，2,_”,2 W |, 其中 x , 是仅与消 
息和先前接收到的值…， V %丨的函数。于是，当 W 服从上的 
均匀分布时，有 



图 7-13 带反馈的离敗无记忆信进 

Pl n) = Pr \ g ( Y r , )^= W \ (7-119) 

定义离 散无记忆信道 的带反馈容量 C ra (capacity with feedback ) 定义为反馈码可以达到的 
所有码率的上确界。 

定理 7.12.1( 反馈容量） 

C FB =C = maxi ( X ； y ) (7-120) 

证明： 由于非反馈码是反馈码的特例，不带 S 馈能够达到的任何码率也可以通过带反馈的方 
式达到，因此 

Cfb ^ C (7-121) 

证明相反的不等式稍微复杂一些。无法再直接使用证明不带反馈的编码逆定理中给出的方法。 
由于足依赖于过去接收到的字符，引理 7.9.2 不再成立，而且式 （7-93) 中的结论（即仅依赖 
2 } 6 \ 于 X ,且条件独立于未来的 X 的结论)也不再成立。 

但是，只要经过简单的修改，原来的方法依然起作用；取代 X "，我们使用下标 W ， 则可以证 

明类似的系列不等式。设 W 服从11,2,…，2 刿上 的均匀分布，则 Pr \ W ^ W \ = P ( e n \ 根据费诺 
不等式和数据处理不等式，我们有 

nR = H(W) = H(W\W)+I(W ； W) (7-122) 

< 1 + P^nR +I(W ； W) (7-123) 

< 1 + P ( e n) nR + /(W ； Y") (7-124) 






下面我们可以估计 UW ； V " ) 的界 如下: 


/( W ； Y") = H(V") - H(y" 1 W ) 

(7-125) 

= my") _ Emy f i Yi,y 2 .-.v,-i.w) 

t* i 

(7-126) 

=h(y*)- E h( y, i y,,y 2 ,-,y l . 1 ,w,x l ) 

• *i 

(7-127) 

=mr) - Emy, i x.) 

i s | 

(7-128) 

这是由于 x, 是关于 Yi, …， y,-! 和 w 的函数；以及在给定 x, 的条件下， 
过去样本。由离散无记忆信道容 M 的定义，我们坷以得到 

1独立于说和7的 

/(w ； y") = h(y")- Smy, 1 X.) 

9*1 

(7-129) 

< Emy,.)- Emu,) 

(7-130) 

= i/(X ( ； V,) 

(7-131) 

泰 ~ 1 

< nC 

(7-132) 

综合上述， si 得 

P\ n) nR + 1 + ”C 

(7-133) 217 

两边同时除以 n 并令 rz— 得到 

C 

(7-134) 

T 是，使用反馈并不能带给我们更高的码率，即 

Cfb = C 

(7-135)D 


正如我们在二元擦除信道的例子中看到的那样，反馈在简化编码和译码方面可以起到很大 
的作用。然而，它并不能增加信道的容 


7.13 信源信道分离定理 

现在是将已经证明的两个主要结果结合在一起的时候了：数据压缩（尺 > H : 定理 5.4.2) 和 
数据传输（尺 < C : 定理7.7.1)。为了通过信道传输信源，条件 H < C 是充分必要的吗？例如， 
考虑通过离散无记忆信道传输数字语音或音乐。设计一个码将语音样本序列直接映射成信道的 
输人信号，或者先将语音压缩成最有效的格式，然后使用适当的信道编码从该信道将它发送出 
去。由于数据压缩不依赖于信道，而信道编码又不依赖于信源分布，因此，如果使用两步骤方 
法，我们并不十分淸楚会不会损失一些信息。 

在这节中我们将证明 •. 在有噪声信道中，两步骤方法与其他传输信息的方法一样有效。该结 
果有一些重要的实际应用。这意味着可以将通信系统的设计转化成信源编码与信道编码两个部 
分的组合。为数据最有效的表达设计信源码，也能够分离独立地设计适合于信道的信道码。这 
种组合的方法与将两个问題一起考虑所能设计出的任何方法一样有效。 

数据的通常表示是使用二元字母表。最现代的通信系统是数字化的，并且为了能在通常的 
信道上传输，数据简化为二进制表示。这使复杂度大大减小。像 ATM 和因特 W 这样的网络系统 
允许语音、视频和数字数据共用相同的通信信道。 

两步骤处理与任何一步骤处理都一样有效。虽然这一结论看上去是那么显然，但有必要提 
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醒读者，这未必总是正确的。例如，在某些多用户信道中，这种分解是不可行的。我们也将考虑 
两个简单的情形，这时定理看上去会有误导性。简单的例子是通过擦除信道发送英文文本。首 
先找出文本最有效的二进制表示，然后通过信道发送它。这时，发生的错误将很难译码。如果直 
接发送这个英文文本，虽然会损失大约一半的字母，但仍然可以知道文本的含义。类似地，人类 
的耳朵有一些非同寻常的能力，如果噪声是白色的，可以在非常高的噪声水平下分辨出语音。在 
这种情况下，直接通过有噪声信道发送未被压缩的语音会比发送压缩的语音更加合适。明显地， 
信源中的冗余适应于信道。 

现在对上述问题做个严格的定义。假设有一个信源 V ,从字母表 V 中生成字符。对于由 V 
生成的随机过程，除了要求其取值于有限字母表且满足 AEP 之外，不做任何假设。这种过程的 
例子包括独立同分布的随机变 ft 序列和平稳不可约马尔可夫链的状态序列。任何平稳遍历信源 
均满足 AEP , 这将在 6.8 节中证明。 

现在想通过信道发送字符序列 V "= V 1 , V 2 ,.-, V II , 并且保证接收者可以重构序列。为了 
达到这个目的，将序列映射成码字 x -( v -), 通过信道发送这个码字。接收者观察接收到的序 
列 V "后，给出发送序列 V "的估计 V "。如果 V "关 V ",则接收者犯了错误。我们定义误差概率为 

Pr (V» 关 0) = 2SP ( 沪）/>(乂 \ ^(v n ))I(g(y t )^v n ) (7-136) 

其中 J 为示性函数，奴/)是译码函数。这个系统如图 7-14 所示。 



图 7-14 联合信源信道编码 

下面给出联合信源信道编码 定理： 

定理 7.13. U 信源信道编码 定理） 如果 V ,, V 2 ,-. V . 为有限字母表上满足 AEP 和 H ( V )< 
C 的随机过租，則存在一个信源信道编码使得误差概率 Pr ( V " 关 V ")-0。 反之，对任意平穗随 
机过租，如果 H ( V )> C , 那么误差概率远离 0, 从而不可能以任意低的误差概牟通过信道发送这 
个过程。 

证明： 可达性。证 明前半部分的 楮髄就 是此前描述的两步骤编码。由于已经假定随机过程 
满足 AEP ， 所以必然存在一个元素个数<2” ( 《 0；〉+ * > 的典型集4” > ,它拥有概率的绝大部分。仅 
对属于这个典型集的信源序列进行编码；其余所有序列将产生一个错误。它对误差概率的贡献 
不会超过 e 。 

给 A 卜中的所有序列加上下标。由于至多有^⑴+ ^个这样的序列， n ( H + e ) 比特足以给出 
它们的下标了。如果 

H ( V ) + e = R<C (7-137) 

我们能以小于 e 的误差概率将需要的下标发送给接收者。接收者可以通过穷举典型集选 
择与被估计下标相应的序列，从而重构出 V "。这个序列将以很高的概率与传输序列相一致。具 
体来说，对充分大的 n ， 我们有 

p( v" « a[ h) ) + p( g ( v-1 v" € A[ m) ) 

< e + e=2e 


因此，如果 


(7-138) 

(7-139) 
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H ( V)<C (7-140) 

那么对充分大的； 2 , 我们能够以低的误差概率重构出序列。 

逆定理。 我们希望证明，对于任意的信源信道码序列 

X "( V ")： V "—(7-141) 

(7-142) 

Pr ( V "^ V ")— 0蕴含结论汛1；)<(：。是数据序列 V "的任意（也许是随机的）码字分配, 
g „(0 是任何译码函数(对输出序列 F 的估计分配 V ")。根据费诺不等式，必有 
H ( V »| V ")< l + P r ( V "^ V ") log | V"|=l + Pr ( V "^ V ") w log | V | 

因此，对于这个码， 

H(V) ㈣，》•••〜 
n 

= ± H ( V"|V") + -/(V -； V) 
n n 

^•(l + Pr(V"^V")nlog|V|) + +/(W) 

$ 丄 （l + Pr(P^V")”log|V|) + 丄 KX^V") • 
n n 

^- i - + Pr ( V "^ V ") log | V | +C 

其中 ( a ) 由平稳过 程煉率 的定义推出， （ b ) 由费诺不等式得到， （ c ) 由数据处理不等式（由于 V "- 
xn — yn — 铲构成马尔可 夫链） 得到， （ d ) 由信道的无记忆性得出。令 n «» ,我们有 Pr ( V " 关 
V ")-0, 因此 

//( V )< C (7-150)0 

于是，我们能够通过信道传输平稳遍历信源当且仅当它的熵率小于信道容谩。联合信源信 
道分离定理促使我们将信源编码问題从信道编码问题中独立出来考虑。信源编码器试图找到信 
源的最有效表示，而信道编码器编码消息要具备能够对抗信道中产生的噪声和错误的能力。分 
离定理表明，分离编码器(如图 7-15) 与联合编码器(如图 7-14) 能够达到相同的码率。 


(7-143) 

(7-144) 

(7-145) 

(7-146) 

(7-147) 

(7-148) 

(7-149) 


mm 

編码器 


倌道 

x m ( y ) 

倌道 

V 

信道 


倌灝 


編码器 




译丹器 


译码器 


图 7-15 分离信源信道编码 

由此结论，我们已经将信息论中的两个基本定理（数据压缩与数据传输定理）联系在了 
一起。接下来用几句话概括这两个结果的证明过程。数据压缩定理来源于 AEP , 表明全部信 
源序列存在一个拥有了绝大部分概率的“小型”的子集 （大 小为2#)，根据这个子集使用 H 比 
特 碎 符并以很小的误差概率来表示这个信源。数据传输定理基于联合的 AEP ; 它依据的事实 
是： 对于大的分组长度，信道的输出序列非常有可能与输人码字是联合典型的，而任何其他码字 
是联合典型的概率约为2-” 7 。因而，我们可以使用大约 r 7 个码字而保持可忽略的误差概率。信 
源信道分离定理说明，我们可以独立地设计信源码和信道码，然后结合两者的结果以达到最优的 
效果。 
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第 7 章 
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要点 


倌息容量可区分的输人信号数董的对数值由下面等式给出 

C = xnax/(X ； y) 

例子 

•二元对称 信道： C = l - H (/>)。 

• 二元擦除 信道： C = l-ao 
• 对称 信道： C =! ogl ； V|-H (转移矩阵的行)。 

C 的性质 

1. (X C< rainllogWI ， log|JMIo 

2. i ( X ; Y ) 是关于 Mi ) 的连续凹函败。 

联合典型性服从分布 p ( x , y > 的联 合典® 序列的集合 A 

A (-) = t ( jr % y .) e ^- xy -： 


为 


-ilogp(x-)-H(X)|<€ 

- 士 logMy)-H ⑺ |<€ 

• 丄 lag/>(x" t y) - H(X, Y) 


<€ 


I 


(7-151) 

(7-152) 

(7-153) 

(7-154) 


其中 p ( x " f y ) = II 山 

*合 AEP : 设( X "， V ") 为 i . i - d . 服从分布 p ( x -,/) = ft /> U ，： y .) 且长度为”的序列，则 

1. PHCx^.r 1 ) e aJ-O —i.«-°°o 

2. I Ai … <2- (H(x . m ‘)。 秀 

3. 如果(炉， 尹）〜 pu ") 〆 ;/)， 则 PK ( X n , y ") e A 5 n > X 2' ,,(KX,y) 

信道编码定通所有小于信道容撤 C 的码率都是可达的，而所有大于信道容量的码率是不 
可 达的；也賴 说，膽«的解尺<〔，存在綠》料 G 的-个 (2# ，”）码序列。反 

之，如果码率 K > C ， 那么 A ⑺ 将远离0。 緣 

反馕容置对于离散无记忆信道，反馈并不能增加信道容设，即 Ob = C 。 

倌源侑道定 SI 如果随机过程的熵率 H > C ， 则该过程不能通过离散无记忆信道被可雛地 

传输 相反， 如果随机过程满足 AEP , 且 H < C , W 信源可以被 >: 兑地 仏垴。 


习题 

7 . 1 檢出的领处理。如果-个统计学家面对具有转移概率为 〆 且 

j ( x ， y ) 的通信信道，他会对输出做出很有帮助的预处理：⑺，并且断定这样做庇 

够严格地改进容量。 

( a ) 清证明他错了。 

( b ) 在什么条件下他不会严格地减小容量？ 
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7.2 可加嗓声信道。 求下列离散无记忆信道的信道容 M : 

z 

x — -<!) ~ ^ 

其中？1^ = 0|=?^7=幻=+。久的字母表为义=10,1|。假设 Z 与 X 相互独立。 注意： 

信道容量依赖于 a 的取值。 

7.3 有记忆信道具有较高的容量。 考虑满足 Y , = X ， ㊉ 乙的二元对称信道，其中 ㊉ 表示模2加 
法运算，且 X , y 々10， l |。 假设12,1具有常边际分布 PrU , = l | = />= l - P r U , = 0|， 但 
&,2： 2 ，…，乙不一定相互独立。假定 Z " 与输入 X "相互独立， C = l - H (/), l -/>) o 证明 
&1^ )/(；^，乂 2 ,."，尤 ； >^，7 2 ,".,1)>71(： 0 

7.4 信 k 容量。考虑离散无记忆信道 y=X + Z ( modll ) o 其中 

1, 2, 3 

Z= 丄丄 1 
3 * 3 * 3 

以及 xe to , 1 , 2 ,…， 101 。假定相互独立，那么 

( a ) 求出该信道的容 M 。 

( b ) 使得 容贵最 大化的 />• ( or ) 是什么？ 

7.5 同时使用两 个 信道。 考虑信道容*分别为 C : 与 C 2 的两个离散无记忆信道，/ >(^, lx 1 ), 

yi )^( X 2 t p ( y 2 \ x 2 ) 9 y 2 ) o 由这两个信道可以构造出一个新的信道 
p ( y 2 \ x 2 ), yixy 2 ), 对于任何:!•,€々以及1 2 €义，这个新的信道可以同时发送它们并且 
收到:计算该信道的容贵。 

7.6 有噪声的打字机信道 。考虑26个键的打字机。 

( a ) 如果每敲击一个键，它就准确地输出相应的字符，那么该容 M C 是多少比特？ _ 

( b ) 如果假设敲击一个键都会导致输出该键对应的字母或者下一个字母等概率出现，即， 

A — A 或 Z 或 A 。 那么此时的容 tt 如何？ 

( c ) 对于 ( b ) 中所述的信道，对于分组长度为1的编码的最高码率是多少？此时你可以看出 
该编码达到0误差槪率。 

7.7 二 元对称信道的串联。 如下是72个完全相同的独立二元对称信道的串联示 意图， 

X n — 函 -^一 一久”一函-" X ” 

其中每个信道的原始误差概率为 P 。 证明该串联的信道等价于具有误差槪率为 +(1 _ (1 - 

2户广）的一个二元对称信道。因此，当 P 关 0，1 时， lim ^ oo /( X 0 ; X n ) = 0 o 假设在中转端口 
，…，^^^处不再设罝编码或译码方案，于是该串联信道的容量趋近于0。 

7.8 Z 信道。 Z 信道是具有二元输人和输出字母表的信道，其转移槪率 P ( W ： r ) 矩阵 如下： 

Q = ii/z I^)' x>yel0lli 

求 Z 信道的容量以及最大化时的输入概率分布。 

7.9 次 优码。 对于习题 7.8 中的 Z 信道，假设随机选择一个 (2^， rz ) 码，其中每个码字是一个拋 
掷均勾 硬币的序列。这将不会达到容量。求出当分组长度〃趋向无穷时，使得误差概率 
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M n > ( 在所有随机生成的码上的平均)趋向 0 的最大码率尺。 

零误差容量。 假设某信道的字母表为|0,1，2,3,4|,转移概率为如下形式 

, ■ 、 11/2 当 : y = : r ± l ( mod 5) 

W + io 否则 

( a ) 计算该信道的容量，以比特为单位。 

( b ) 信道的零误差容 S 是指每次以误差槪率0传输信息的每信道比特数童。显然，该五元 
信道的零误差容量至少是1比特(传输0或1的概率均为|)。找出一个分组码来说明 

该信道的零误差容量大于1比特。你能估计出该零误差容最的精确值吗？（提 示：考 
虑该信道的分组长度为2的码。） Lovasz 获得了该信道的零误差容量，具体可以参看 
Lovasz [ 365 ] 0 

时变信道。 考虑一个时变离散无记忆信道。 

令 y ,, y 2 ，…，\在已知 x it x 2 ，…， k 的条件下是条件独立的，并且条件概率分布为 />(y I x ) 
= IIaU 丨為)。设兀= Y= (y 卜 y 2 ，…， y”)o 求 max p( , 〉 J(X ; Y)o 
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未使用字符。 假设信道的转移槪率矩阵如下 




2 丄 

3 3 


3 3 3 


(7-155) 


J_ 2. 
3 3. 


证明： 该信 道容位 玎以由某个输入字符概率为0的输人分布达到。该信道容 ft 是多少？并 
从直观上解释为何这个字符没有被使用。 

二元信道中的擦除与出错。 考虑一个既有擦除又有出错的二元输入信道。设出错的概率为 
£,擦除的概率为因此，信道的示意图 如下： 
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( a ) 求该信道的容量。 

( b ) 当该信道为二元对称信道时 U 二 0), 容量为多少？ 

( c ) 当该信道为二元擦除信道时 U = 0), 容量为多少？ 

7.14 字 符相依信道。 考虑二元字母表上的信道。该信道接收多个2比特字符，并产生一个2比 
特输出，确定满足映射关系 如下： 00 —01,01 —10,10— 11和11 — 00。那么，如果信道 
的输人为2比特序列01,则输出为10的槪率为1。设；^,；^ 2 表示两个输人字符，匕，7 2 表 
示两个相应的输出字符。 

( a ) 计算互信息 /(x 1 ,x 2 ； y l ,y 2 ), 它是四个可能输入对上的输人分布的函数。 

( b ) 证明在该信道上传输一对字符的容量为2比特。 

( c ) 证明，对于达到信道容摄的最大化榆人分布，/(夂 1; 匕）= 0。由此说明，达到容量的 
输人序列分布不一定同时使得单个字符与相应输出之间的互信息达到最大值。 

7.15 联合典型序列。 如同在习题 3.13 中计算单个随机变量的典型集一样，我们将计算由二元 

对称信道所连接在一起的一对随机变量的联合典型集，以及针对该信道的联合典型译码[?27 
的误差概率。 



设二元对称信道的交叉概率为0.1。达到信道容世的输入分布为均匀分布（即 p ( x ) = 
( y , y )), 此时产生的联合分布 pU ， y ) 为 



0 

1 

0 

0.45 

0.05 

1 

0.05 

0.45 


Y 的边际分布也•为+ 

( a ) 在以上联合分布下，计算 HU ), H ( y )， mx , y ) 和 / u ; y )。 

(b) 设 XhA , …,总为丨」』服从 BenxxiUid) 分布。在长度为 n 的 2” 个可能的输人序列中， 

哪些是典型的(即 e = 0.2^t t A[ n \X) 中的元素)？ A[ n) (Y) 中的典型序列又是什么？ 

( c ) 联合典型集 A[ n) (X,Y) 定义为满足方程组 (7-35) 〜 (7-37) 的序列构成的集合。前两 
个方程对应于 or ” 和 y 分别属于 A ^ U 〉 和 A ( t n) (Y) 的条件。最后一个条件可以重新 

写为- -\ ogpU \ y 1 ) € ( h ( x 9 y ) - e ， mx , y ) + e )。 设 i 为序列 / 与 y 中出现 

n 

差异的位置数目（々为两序列的函 数）。 因此，我们有 

/>( x n , y ) = tlp(x i9yi ) (7-156) [228 

1*1 

=(0.45)--*(0.05)* (7-157) 



=( y)"(l - p ) n ' k p k (7-158) 

对丁•计算上述概率值，另一种做法是将二元对称信道视为可加信道 y = x © z , 其中 
z 为二元随机变量，等于1的概率为/>,且独立于 X 。此时， 

p ( x \ y i ) = pu n ) p ( y r \ x n ) (7-159) 

= pU n ) p ( z n \ x n ) (7-160) 

= p ( x n ) p ( z n ) (7-161) 

=( j)”(l _/>)”- V (7-162) 

证明 （ x ”, y ) 是联合典型的条件等价于: T ” 与 2 ：” = y - J ：” 都是典型的。 

( d ) 现在对 M =25, £=0.2, 计算的大小。如习题 3.13, 含务个1的序列的概率 

与数目一览 表如下: __ 

一 k (7) c»-)^(i-/>)"-* 


0 

1 

0.071790 

ri — 

0.152003 

1 

25 

0.199416 

0.278800 

2 

300 

0.265888 

0.405597 

3 

2300 

0.226497 

0.532394 

4 

12650 

0.138415 

0.659191 

5 

53130 

0.064594 

0.785988 

6 

177100 

0.023924 

0.912785 

7 

480700 

0.007215 

1 .039582 

8 

1081575 

0.001804 

1 • 166379 

9 

2042975 

0.000379 

1.293176 

10 

3268760 

0.000067 

1.419973 

11 

4457400 

0.000010 

1 .546770 

12 

5200300 

0.000001 

1 .673567 


(在表格中，超过12个丨的序列没有列出，因为它们的总概率可以忽略不计，而且也 
不在典型集中。)集合 A / YZ ) 的大小为多少？ 

( c ) 如信道编码定理的证明中所述，考虑信道的随机编码。假定2必个码字； T ( l ), 
X "(2), …，; T (2#) 均匀取自长度为”的可能二元序列。选取其中一个码宇，并在该 
信道上发送。接收器观察接收到的序列，并试图在码簿中找到一个与接收的序列联合 
典型的码字。如上所述，这对应于找出一个码字 XMO , 使 Y l - X n ( i ) eA [ n ) ( Z)o 
对于固定的码字 /( i ), 使 （ xVihY ") 为联合典型的接收的序列^的概率为多少？ 
(0 考虑特定的接收序列 y = 000000…0。假定在长度为”的所有 2" 个可能的二元序列 
上，随机均匀地选取一个序列 X %选取的序列与这个 y * 为联合典型的概率是多少? 
(提示：这等于使得 y *0€< n ) (2) 成立的全体序列 Z 的概率 J 
( g ) 现在考虑一个码，它由长度为12的2 9 = 215个码字组成，且这些码字随机均匀取自 
所有长度为 n =25的2” 个序列。称其中的一个码字对应于1 = 1,就是说该码字被 
选取并且在信道上被发送。如 ( e ) 中计算可知，接收到的序列具有很高的概率与发送 






的码字是联合典型的。其余的码字（一个或更多，随机选择且独立于已发送的码宇） 

与接收到的序列是联合典型的概率为多少？（提 示： 可以利用联合界，但也可以由 （ f ) 

中的结论与码字的独立性精确地计算出这个概率 
( h ) 假定一个码字被发送出去，其误差概率(平均值取自信道的概率分布和其余码字的随 
机选取)可以写为 

Pi ■(误差丨 x "( l ) 被发送 ） = D p ( y * I x "( l )) (7-163) 

雎使产今* 弟的 y 

这里有两类错误：如果接收到的序列，与传输的码字不是联合典型的，就会产生第 
一类 错误； 如果存在另一个码字与接收到的序列是联合典型的，就会产生第二类错 
误。利用前面的结论，可以计算出这个误差概率。由随机编码的对称性可知，这个值^ 
不依赖于发送的是哪个码字。 

以上计算结果表明，相对于交叉槪率为 0.1 的二元对称信道而言，该信道上由长度为 
25的512个码字组成的随机码的平均误差大约为0.34。这个值看起来非常高，但其中缘 
由主要是因为我们选取的 e 值太大了。若在的定义中选取较小的 e 值与较大的 
值，那么，只要在码率小于/( X ； Y )-3 c 的条件下，就可以使误差概率变得要多小就能 
多小。 

同时注意到，习题中叙述的译码程序并不是最优的。最优的译码程序是最大似然译 
码(即选取与接收到的序列最接近的码字）。如果对 ft 大似然译码方法做近似处理，就可 
以计算出随机码的平均误差槪率。这里的方法是将接收到的序列译为惟一与其相差 <4 
比特的码字，否则就宣布出错 3 与以上所述的联合典型译码法相比，当码字等于接收序 
列时情形会有所不一样，这是两者的惟一区别！可以证明，这个译码方案的平均误差概 
率大约为0.285。 

编码器与解码器作为信道的一部分 3 考虑交叉概率为 0.1 的二元对称信道。对于这个信 
道，考虑两个长度为3的 码字。 可能的方案是将消息 以 编码为000,将消息 a 2 编码为 
111。对此编码方案，进一步将编码器、信道和译码器组合起来考虑，从而形成一个新的 
BSC , 其两个输入为 q 和 a 2 , 两个输出也为 q 和4。 

( a ) 计箅 该信道的交叉概率。 

( b ) 该信道的信道容敏为多少？ （ tt 纲为比特/原信道 传输〉 

( c ) 交叉概率为 0.1 的原始 BSC 的信道容里为多少？ 

( d ) 证明下面关于信道的一般结论 •. 将编码器、信道和译码器组合考虑，形成一个消息到 
被估计消息的新信道，这种方式不会增加信道容鼉纲为比特^原信道传檢）。 

BSC 和 BEC 上的长度为 3 的编码。 在习题 7.16 中，对于交叉概率为 e 的二元对称信道，_ 
我们设计了在该信道上发送长度为3的两个码字000和111,并计箅了这个编码的误差概 
率。对本习题，我们取£=0.1。 

( a ) 对于此信道，找出长度为3且只含四个码字的最优码。该编码的误差概率为多少？ 

(注意，所有可能的接收到的序列都必须映射为珂能的码字。） 

( b ) 如果使用长度为3的所有8个可能的序列作为码字，那么误差概率为多少？ 

( c ) 现在考虑擦除槪率为 0.1 的二元擦除信道。若使用两码字编码000和111,则接收的 
序列 00 E ，0 E 0, E 00, OEE , EOE , EE 0 可能都将译为0;类似地， 11 E ，1 E 1 ， Ell ， 1 EE , 

E 1 E , EE 1 都译为1。'如果接收到的序列是 EEE , 则我们并不清楚发送的是000还是 
111，因而，我们随机地选取其一，而且发生错误的几率各占一半。请问，对于这样的 



擦除信道，该编码的误差概率为多少？ 

( d ) 对于 ( a ) 和 ( b ), 如果也考虑的是二元擦除信道，那么相应编码的误差概率是多少? 
18信道容量。计算如下概率转移矩阵已知的信道 容量： 

( a ) U = IO ， l ，2| 


3 3 3 


P ( y \^)= yy-j 


(7-164) 


1 1 1 

3 3 3. 


( b ) U =|0, l ，2| 


P (: yU) = 


(7-165) 


( c )^ = ^= 10,1,2,31 




(7-166) 


p l-p 0 0 

p ( y \ x )^ l ~ P P 0 0 (7-166) 

^ y 0 0 q \-q 

. 0 0 q q . 

7.19 信鸽的信道容量。 假定某支军队的指挥官 被围困 在一个军事要塞里。对于他来讲，只剩 
下一批信鸽可以向他的盟军传达信息。假设每只信鸽能传送的信息为1个字母 (8 比特）, 
他每隔5分钟放飞一批信鸽，并且每只信鸽达到目的地所需的时间恰好为3分钟。 

( a ) 假定所有信鸽都能安全地到达目的地，则这种联系方式的容量为多少比特/小时？ 

( b ) 现在假设敌人 试阁击 落这些鸽子，并假设他们能击中目标的比例为 a 。 由于鸽子是以 
恒定的速率被放飞的，接收者知道什么时候有鸽子未能到达目的地。这种联系方式的 
容量为多少？ 

( c ) 假设现在敌人变得更加狡猾，每次射落一只鸽子时，就放出一只假鸽子，让它携带一 
个随机字母(均匀取自所有8比特的字母)。对此情形，这种联系方式的容量为多少比 
特/小时？ 

给上述每种情形建立一个合适的模型，并简要说明信道容*是如何计算得到的。 

7.20 在褕出 Y 上带两 个独立 观察的 信道。 设在给定 X 下， y 〗 和 y 2 条件独立且条件同分布。 

( a ) 证明 /( X ? Yl y 2 ) =2/( X ; Y { ) - /( y,5 Y 2 )o 

( b ) 推断信道的容量 



(>v o 


不超过信道的容的两倍。 






7.21 高而胖的人。 假设屋子里的人平均身高为5英尺，平均体重为100 磅。 

( a ) 请说明不会超过1/3的人的身高在15英尺。 

( b 〉 估计屋子里体重300磅，身高10英尺的人的比例的上界。 _ 

7.22 添加信号会降低容量吗？ 证明，添加一行到信道转移矩阵不会降低容 量。 

7.23 二元乘法信道 

( a ) 考虑信道 XZ , 其中 X 和 Z 为相互独立的二元随机变量，取值均为0和1。 Z 服从 
BemoulliU ), 即 P ( Z = l ) = a 。 计算该信道的容量，求得容量达到最大时的 X 的 
分布。 

( b ) 假定现在接收器能像观察到 y —样也能观察到 Z , 则此时容量为多少？ 

7.24 有噪 声的字母表。 考虑如下信道 

Z 

10,1,2,31,其中 y=X + Z , 2服从三个不同整数值2=| 21 4 2 , 23 1上的均匀分布。 

( a ) 若字母表2可以任意选取，则最大信道容童是多少？并给出达到该值时的不同整数 
2 1* 2 2» 2 3* 以及 Hi 的分布。 

( b ) 若字母表2可以任意选取，则最小信道容最为多少？并给出达到该值时的不同整数 
z , t z 2 ^3. 以及 It 的分布。 

7.25 瓶颈信道。 假设信号 X € i = ll ,2, …， ml 要通过一个中间转移 



其中 x = | l ,2,--, m | t y = 11,2 ,…, ml 以及 v = ll ,2, …，是 |。这里 p ( v | o :) 和 p(yl v ) 任 
意，信道的转移概率为 〆: y \ x ) =^ p ( v \ I v ) 。证明 C < log^o 國 

7.26 有噪声的打字机信道。 设信道满足1,^6 10,1,2,31,转移概率 p (^ U ) 以如下矩阵给出： 



( a ) 求该信道的容鲎。 

( b ) 定义随机变量 z = g ( y) t 其中 

IA 如果: yetO , II 
8{y) ~ U 如果 # 12,31 
对下面两个 x 的概率密度函数，计算 /( X ; Z )： 

,、\ 如果: reil ，3| 
/ >(x)=S 2 

0 如果 : r € l 0,2 l 


(0 





( ii ) 


[235 


fO 如果 : r € U ，3 l 
pU)= \^ 如果 : r 6|0,2| 

( c ) 计算 x 与 z 之间的信道容量，其中1610,1,2,31, ze \ A t B \, 转移概率 />( do *) 为 

p(z = z \ x = x) = E p( y =外 I x = x).. 

w« 

(d) 对于 (b) 中 （ i ) 的 x 分布 , 构成一个马尔可夫链吗？ 

7.27 擦除信道。设 | i ,/>( yU ),； VI 是容量为 C 的离散无记忆信道，并假定立即让这个信道与 
擦除字符比例为 a 的擦除信道 l ； V ,/>( 5 l ： y )， A 串联。 



具体讲， I：yi，_y2, …,: ym,el ,且 

PrlS = ： y|X = x| = 砂 (3»| 工 ) ， y^y 
PrlS = elX = xl=a 

求该信道的 容莆。 

7.28 信道的选取。求两侑道(: ViU 山; V,l 和 |Ar 2 ,p 2 (：y 2 |a： 2 >,；y 2 | 联合后的倌道容童 C, 
其中要求每次发送字符时，要么是在信道1,要么是在信道2上发送，而不能同时发送。 
假定两者的输出字母表不相同且不相交。 

(a) 证明 2 c = 2 c ，+2q。 因此，2^是 容请为 C 的信道的有效字母表大小。 

(b) 与习题2.10中的2» = 2& + 24做比较，根据无噪声字符的有效大小解释 U) 中的结论。 

(c) 利用上述结论计算如下信道的容资， 




7.29 信源与信道。 设二元对称信道的交叉概率为 P , 希望编码在该信道上传输的 BernoulliU ) 
过程 V ^, V 2 , …。 


V - - 


找出当⑺，误差概率关 V ") 趋于0时， cr 和 P 应该满足的条件。 

7.30 随机 20 问題 3 设 X 服从11，2,…， ml 上的均匀分布。假定 饥 =2”。现在随机 提问： 奸 Si 吗? 
XGS 2 ? ……直到只剩下一个整数为止。 11,2,.", ml 的所有 2 m 个子集 S 都是等可能的。 

( a ) 确定 X 需要多少个确定性的问题？ 
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( b ) 不失一 •般性，假设 X = 1 就是这样的随机目标。对于 々个 问题，目标2与目标1都具 
有相同答案的概率是多少？ 

( c ) 12,3 ，…， ml 中与正确目标1具有相同问题答案的期望目标数为多少？ 

( d ) 假设随机提出了 个问题。那么与答案一致的错误目标数的期望值为多少？ 


( e ) 利用马尔可夫不等式 PriX > tfi \< 十证明，当 m — «时，误差概率（还剩下一个或更 
多的错误目标)趋于0。 

7.31 带反馈的 BSC 。 假定参数为/>的二元对称信道是带反馈的。每次 Y 被接收到的同时，它 
也成为下一个传输 a 于是，&服从 


U ) 求 lim ”— oofKX ^ Y 71 )。 

( b ) 证明存在某些 p 值，使得 h 述极限值比容 M 大。 

( c ) 利用这种反馈传输方案 x"(w,y") = (x 1 (w),y lf y 2 

率为多少，即等于多少？ 

32信道容量。分别求出以下信道的容 ft 
( a ) 两个并联 BSC : 


, Y ^)， 可达的渐近通信码 



( b ) BSC 与单字符信道: 




238 


( c ) BSC 与三元信道: 
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( d ) 三元 信道: 


/ >(_yl 工 ）= 


~2 

3 

0 



3音」 


(7-167) 


7.33 信道容量。假 定信道 P 的容量为 C ， 其中 P 表示一个 m x „的信道矩阵。 



( a ) 信道 


的容童为多少? 
( b ) 信道 




-V 

Mo 


的容 tt 为多少？其中为 A X A 单位阵。 

有记忆 信道。考虑输入字母表为 1-1, II 的离散无记忆信道 y , = 2 yc ,。 
( a ) 若 lz,| 为 i.i.d. 序列，且服从如下分布 



/> = 0.5 
p = 0.5 


(7-168) 


那么该信道的容 ft 为多少？ 

现在我们考虑信道是有记忆的。在传输开始前， Z 随机选取并在任何时刻都固定。于 


7.35 


是， y f = zx,o 

( b ) 当 


时，信道容 M 为多少？ 

联合典 型性。设 （ X ,， Y ,， 乙）为 i . i . d . 服从 pU , y , z )。 如果 


(7-169) 


• P ( x n ) e 2 ^ (H(x)i9) 

• p(y n )e2' n<H(Y)it) 

• p ( z n ) e 2 ' n(H(z)tt) 

• p(x\y n )e2' n<H(X ' Y)t€) 

• p(x n 9 z n )e2^ <H(x ' z)±t) 

• p(x\y\z n )e2- n(H(x ' Y ' z)±t) 

则称 w ,/) 是联合典型的(记卜 )。 ~ 〜 

现在假定(办，？",2")服从 fiU ") p ( y ) p ( z ”）。 虽然又”，具有与相 
同的边际分布，但它们是相互独立的 。基 于熵 H ( X ), H ( V ), H ( Z ), H ( X , y ), H ( X , Z ), 
my , Z ) 与 H ( X , y , Z ), 求 卜 1( 的界）。 


历史回顾 

互信息的概念以及互信息与信道容量之间的关系均为香农在其开创性论文[ 472 ]中首次提 
出。他给出了信道容量定理的描述以及利用典型序列的粗略证明，但思路与本章所描述的基本 
相似。而该定理的初次严格证明归功于 Feinst e in [205], 他利用了一种令人感到费劲的“切甜饼” 
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的方法计算能够以低误差概率发送的码字的数目。 Gallag er [224] 利用随机编码指数给出了一个 
比较简单的证明。我们的证明是基于 Cover [121] 和 Fomey 的没有发表的讲义 [216] 得出的。 

费诺 [201] 利用冠以自己名字的不等式给出了逆定理的证明。强逆定理是由 Wolfowitz [565] 

首次给出证明的，他使用的技巧与典型序列非常相近。随后， Arimot 0 [25] 和 Blahut [65] 分别独 
立地开发出了计算信道容最的一个迭代算法。 [240 

零误差容量的概念是香农在 [474] 中提出来的，在该文章中，他还证明了反馈并不会给离散 
无记忆信道的信道容量带来增长。求解零误差容童问题本质上是组合学的问题，该领域中第一 
个重要的结果当 MLovasz [365]。 求解零误差容 fl 的一般问题仍然没有解决，有关结果的评论可 
参看 K 6 mer 和 Orlitsky [327] 0 

量子信息论，对应于本章中经典理论的量子力学，已经独树一帜形成了一个重大的研究领 
域。相关知识可以参看一篇出色的综述性文章 Benneu 和 Shor [49], 以及 Nielsen 和 Chuang 的著 
作 [395 ]o 函 
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我们现在介绍微分熵的概念，它是一个连续随机变童的熵 3 微分熵与最短描述长度也存在着 
联系，并且在许多方面与离散随机变量的熵相类似 3 但是它们之间仍然存在一些重要的差别，所 
以，在使用这些概念时需要加以注意。 

8.1 定义 

定义设 X 是一个随机变 M , 其累积分布函数为 FU ) = PrU < x )。 如果 FU ) 是连续的，则 
称该随机变》是连续的。当 FU ) 的导数存在时，令 / U ) = F '(: r )。 若 P f ( x ) = 1,则称 / U ) 是 

J —O0 

X 的概率密度函数。另外，使 fU )> 0 的所有 or 构成的集合称为 X 的支撑集 (Support set )。 

定义一个以 / U ) 为密度函数的连续型随机变 ft x 的微分熵 （differential emropyMU ) 定 

义为 

h ( X ) = - J s /( x ) log /( x)dr (8-1) 

其中 S 是这个随机变 fi 的支撑集。 

与离散情形一样，微分熵仅依赖于随机变 tt 的概率密度，因此，有时候我们将微分熵写成 


；!(/) 而不是 / KX )。 

注释当每次给出的例子涉及积分或者密度函数时，都应该说明它们是否存在。因为容易构 
造出随机 变墩的 例子，使它的密度函数不存在，或者上述的积分不存在。 

例 8.1.1( 均匀分布）考虑一个服从[0, a ] 上均匀分布的随机变 M ， 它的密度函数在 [0, a ] 
上为 1/ a , 而在其他地方为0。此时，该随机变 M 的微分熵是 

h ( X )=- 丄 log 士 dr = loga (8-2) 

J o a G 

注：当 a < l 时， loga <0, 此时的微分熵为负。因此，与离散熵不同，微分熵可以为负值。然而， 
如我们所期望的那样 ,2 A(X> = 2 ⑷ = G , 这正好是支撑集的长度，所以它总是非负的。 

例 8.1.2( 正态分布）设入〜#(1) = (1/^?)6-/心。若以奈特(1^)为单位计算微分熵， 


我们有 


= -J^(x) [- ^2 - In v/ 2na 2 j 
EX 2 . 1 . 9 

= n in27 ^ 

= 士 + 士 In 2na 2 

=-~ In e + y In 2na 2 
=In 2nea 2 奈特 


(8-3) 

(8-4) 

(8-5) 

( 8 - 6 ) 

(8-7) 

( 8 - 8 ) 



改变对数的底，可得 


/i ( ^ ) = y log 2ne(j 2 比特 


( 8 - 9 ) [244 


8.2 连续随机 变量的 AEP 


离散随机变量熵扮演的一个重要作用体现在 AEP 中，它指出对于一个独立同分布的随机变 
最序列， />( U 2 , …，； U 将以髙槪率接近于2_ 洲 x> 。 这促使我们定义典型集的概念并且将典 
型序列的习性特征化。 

对于连续随机变 ft ,我们依然可以这样做。 

定理 8.2.1 设 X l t X 2 , - t X n 是一个服从于密度函数/( I )的独立同分布的随机变量序列。 
那么下面的极限依概率收敛。 

-丄 …， 一 £[- log /(；0] = / i (；0 依概率 （8-10) 

n 

证明： 该定理的证明可由弱大数定律定理直接推出。 □ 

这启发我们给出如下的典型集定义。 

定义对€>0及任意的71,定义 /( Jr ) 的典型集 Ai n > 如下： 

A ( ," )= I (x lt x 2 , — 9 x H )€:S n ： --^log/(jr, ， J ： 2, … ，工 ” ） - 厶 （ X) |<e| _ 

其中 / Uw .’ JT ”） = tlfiXi ) O 

连续随机变 M 的典型的性质与离敗随机变 tt 的典型集的性质相似。只不过离散悄形下典 
型集的悄形用基数，而连续随机变 M 典型集的悄况用体积。 

定义集合 ACT ?” 的体积 Vd ( A ) 定义为 

Vol ( A ) = J dxidr 2 ,, * dj- n (8-12) 

定理 8.2.2 典型集 A [ n , 有如下的 性质： 

1. 对于充分大的 n , Fr ( Ai " ) )> l - €o 

2. 对于所有的 n , Vd ( A 卜) <2” uu> + <> 。 

3. 对于充分大的”， 

证明： 根据 AEP (定理 8.2.1), 依槪率有- ^ log /(； T )= - j 2 log /( 

获证。另外， 

1 = J^/( ： T I ， J ： 2, …， I”) 心 1心2…心” 


(8-15) 
(8-16) 

= 2 -„(MX)*«) Vo|(y4 (n) ) (8-17) 

因此，性质2获证。我们进一步论证该典型集的体积至少是这么大。 如果” 足够大使得性质1成 
立，那么 


> J^ 2'' n(MX)4c) dx 1 dr 2 -dr II 
= 2- (MX,4i) J A( . ) dx 1 cLr 2 -cLr n 


x ,)-/*( X ), 故性质 1 

(8-13) 

(8-14) 
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1 J )dr 1 dx 2 ---clr n (8-18) 

<J^. ) 2- n(MX) - e) d J : l clr 2 -dx n (8-19) 

= 2-- u(x) - <) J v-( dc 1 dx 2 -dr w (8-20) 

= 2 --(MX)- e ) Vol(A („) ) (8-21) 

故性质 3 获证。因此，对充分大的 n , 有 

(卜 e)2” 则 … <Vol(0<2" 議 ”〉 ( 8 - 22)0 

定理 8.2.3 在一阶指数意义下，在所有概牟的集合中， 八卜是 体积最小者。 

证明： 具体证明过程与离散情形相同。 □ 


该定理表明拥有大部分概率的最小集合的体积大约为2^。这是 n 维正方体，因而，对应的 
[2461 边长为。这给微分熵槪念提供了一个 解释： 熵就是拥有大部分概率的最小集的边长 
的对数值。因此，较低的熵意味着随机变量被限于一个狭小的有效正方体内，而较高的熵意味着 
该随机变贵是髙度分散的。 

注意： 正如熵与典型集的体积相关一样，另有一个称为费希尔信息 （Fisher information ) 的量 
正好与典型集的表面积相关。我们将于 11.10 节和 17.8 节详细讨论。 

8.3 微分熵与离散熵的关系 


考虑图 8-1 中所示的一个密度函数为 /(: r ) 的 
随机变贵 X 。假定将 X 的定义域等长度分割成长 
度为△的若干小区间，并且假定密度函数在这些 
小区间内是连续的。由中值定理珥知，在每个小 
区间内存在一个值: r , •使得 

(*<•♦ 1) 厶 

/( x ,) A = f { x)dx (8-23) 

j j 厶 

考虑谢化后的随机变贵其定义是 
网 当 fA < X <(* + l)A (8-24) 

则 ，•的 概率为 



户 ， = L /U)dr = fUM 


(8-25) 


由于 J / U ) = 1，所以，量化后的随机变量的熵为 

H(X a )= - £ A log A (8-26) 

=- (8-27) 

• oo 

= _ SA/U)log/U) - S/(x,)AlogA (8-28) 

二 — SA/(X,)log/( Xi) - logA (8-29) 


如果 / U ) log /(: r ) 是黎曼 ( Riemann ) 可积的(确保上述极限存在的一个条件 [556]), 则根据黎曼可 
积的定义 △— 0时，式 (8-29) 中的第一项趋近于- / U ) log / U 〉 的积分。综上所述，得到如下 
定理。 
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定理 8.3. 1 如果随机变量 X 的密度函数 /(z) 是黎曼可积的，那么 

H(X A ) + logA-^/z(/) = /*( X)，当 △— 0 (8-30) 

于是，连续随机变量 X 经过 n 比特量化处理（此时分割的小区间长度为一译者注）后 

的熵大约为 ；2( X )+ w 。 

例 8.3.1 

1. 如果X服从 [0,1] 上的均匀分布，取△=2~”，则 /i=0，HU A ) = W , 于是，在精确到行位 
的意义下，使用 n 比特足以描述X。 

2. 如果X服从 ] 上的均匀分布，那么在二进制表示中，X取值的小数点右边的前3位 
必定为0。因而，在精确到72位的意义下，描述X仅需 n-3 比特，这与 MX) = n-3 相一致。 

3. 如果X〜 Y(0,tr 2 ) 且 a 2 = 100, 那么，在精确到 n 位的意义下，描述X需要的平均长度为 

w + •^•log(27r ecx 2 ) = n + 5.37 比特。 

一般 来讲， 在褚确到 n 位的意义下， h ( X)^n 是为了描述X所需要的平均比特数。 

一个离散随机变贵的微分熵可以看成-°°。注意到厂~=0,这与离散随机变 ft 支撑集的体 
积为零的思想相一致。 

8.4 联合微分熵与条件微分熵 


与离敗悄形相同，可以将单个随机变 M 的微分熵的定义推广到多个随机变 ft 的情形。 

定义联合密度函数为/(々，1 2 ，…， h ) 的一组随机变 ft ，…， X "的联合微 分熵定 

义为 

h ( X l 9 X 2 ,- t X n ) =- J /( x")log f ( x n ) Ax n (8-3 D 

定义如果； C , Y 的联合密度函数为 / U ,： y ), 定义条件微分熵 h ( X \ Y ) 为 

h(X I V ) = - J/( J,>»)log fix I y)dxdy (8-32) 

由于通常 /( x |： y ) = / U ，： y )//(30, 所以，可以改写为 

/*(x|y) = /i(x f y)-/ I (y) (8-33) 

但我们必须注意是否有微分熵为无穷。 

下面的关于熵的估计在本书中经常用到。 

定理 8.4.1 ( 多元正态分布的熵）设…，\服从均值为户，协方差矩阵为 K 的多元 
正态分布，（使用或来记该分布。——译者注）則 

/ l ( X 1 , X 2 ,--, X „) = / i (^„(^, K )) = yiog (27 re )" l / C | 比特 （8-34) 

其中 IK 丨表示 K 的行列式。 

证明： ；^， X 2 ，… ，尤的 联合概率密度函数为 

/ -( x ) = -^- (8-35) 

(y2i)"lK|l . 
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则 


h(f)= - f(x) ~ y(x - fx) T K l (x - fi) - ln(/ 27 r) n I K |2 dx 


(8-36) 
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= y£[E(X f -/i l )(K- 1 ) i ,(X > -^)]+yln(2ir)- I K 1 
*•/ 

(8-37) 

= y£[E(X l -//,)(X ; -^)(K- 1 )J+iln(27r)" ! K i 

1 

(8-38) 

= J ZEKX,- + jln(2n) n 1 K 1 

(8-39) 

= 音 S 2X(/r% + jln(27T)” 1 K 1 

(8-40) 

= y ^(KK^ l ) v + jln(2nr 1 K 1 

(8-41) 

= j El + yln(27r) B 1 K 1 

(8-42) 

= y + yln(27r)"lKl 

(8-43) 

= yln(27re)"lKl 奈特 

(8-44) 

= ylog(27re)"|Kl 比特 

(8-45)D 


8.5 相对熵与互信息 

250] 现在将两个熟悉的 M D (/|| #) 和/( X ; Y 0 的定义推广到连续型随机变 M 的概率密度上。 

定义两个密度函数/和 g 之间的 相对熵 （或 Kullback-Leibler 炬氣、 D ( f \\ g ) 定义为 

D ( fWfr ) X (8-46) 

o 

注意到只有当/的支撑集包含在 g 的支撑集中时， D (/ Ild 才是有限的。（受连续性的启 
发，我们令 01og#=0 。 ） 

定义联合密度函数为 /( zd ) 的两个随机变进间的 互信息 !(X;Y) 定义为 

I(X;Y) = |/( x,>»)log j^ X j^^dxdy (8-47) 

由定义，显然有 

HX ; Y )^ h ( X )- h ( X \ Y ) = h ( Y )- h ( Y \ X ) = h ( X ) + h ( Y )- h ( X , Y ) (8-48) 

和 

HX;Y) = D(f(x t y) II / U )/(30) (8-49) 

D (/ IU ) 和 / U ; V 0 具有与离散情形时相同的性质。特别地，两个随机变量间的互信息是经 
过量化处理后的随机变量间的互信息的极限，这是由于 

/(X A ; y^) = H(X A )- H(X A I Y^) (8-50) 

^/ I (X)-logA-(/ I (Xl V)-logA) (8-51) 

= /(X ； y) (8-52) 

更一般地，我们可以从随机变 ft 的值域的有限分割的角度来定义互信息。设尤为随机变量 X 
的值域， P 为 Y 的一个分割是指存在有限个不相交的集合 P , 使得= X 关于 P 的贵化(记 

为 [ X ] p ) 是定义如下的离散随机变量： 

Pr ([ X]p = /) = Pr(X 6 P.) = J ^ dFU ) (8-53) 

对于任何两个分割分别为 P 与 Q 的随机变量 X 与 Y ， 可以利用式(2-28〉来计算它们对应的量化随 
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机变量的互信息。于是，对于任意成对的随机变景，其互信息可以定义如下 
定义任何随机变量 X 与 Y 间的互信息如下 

/( X ； V)=|ug I([X] v ； [Y]q) (8-54) 

其中上确界遍历所有可能的有限分割 P 与 G 。 

这是定义互信息非常明智的方式，也适应于含有原子的联合分布，密度函数和奇异部分。更 
进一步，如果不停地加细划分卩与2 ,那么可以获得一个单增序列 K [ X ] v ,[ Y ] q )/ Io 

类似于式 (8-52) 的讨论，坷以证明如此定义的互信息对于具有相同密度函数的两个连续型随 
机变董而言，正好与式 (8-47) 等价。而对于离散型随机变童来说，正好与式 (2-28) 等价。 

例 8.5.1 ( 两个相关系数为 p 的相关高斯随机变量之间的互信息）令（ X , Y ) 服从 Y (0， K ), 
其中， 

a 2 p a 1 ' 

K = / 2 (8-55) 

L P <T d J 

那么，/2(；0 = /1(7)= : 士1(«(2枕)。 2 ，而 h ( X ， y ) = ylog (2 jre ) 2 | K | = jlog (2 xe ) V(l - p 2 )o 
因此， 

/(x ； y) = /i(x) + /i(y)-/ 2 (x,y)= -ybgd-^ 2 ) (8-56) 

所以，当 0=0 时， x 与 y 相互独立以及互信息为0。当/>=土1时， x 与 y 完全相关且互信 
息为无穷大。 

8.6 微分熵、相对熵以及互信息的性质 


定理 8.6.1 

D ( f \\ g )>0 

当且仅当 /= g , 几乎处处 ( a . e .) 等号成立。 

证明： 设/的支撑集为 S 。 则 

- D (/|| g )= log ^ 

< log [ / 予（由 Jensen 不等式) 

=log 

<logl = 0 

当且仅当 Jensen 不等式中的等号成立，即当且仅当 /= ga . e . 等号成立。 

推论 I ( X ; Y ) 彡0, 当且仅当 X 与 y 相互独立等号成立。 

推论 h ( X \ Y )< h ( X) t 当且仅当 X 与 y 相互独立等号成立。 

定理 8.6.2 (微分熵的链式规則） 

朦 

h(x lt x 29 -,x n ) = EM I x lt x 2 t -,x i . l ) 

证明： 可由定义直接得到。 

推论 

h ( X l 9 X 29 -, X n X ^： h ( X i ) 

当且仅当 X lt X 29 - 9 X n 相互独立等号成立。 



(8-57) 

(8-58) 

(8-59) [252 

(8-60) 

(8-61) 

□ 

(8-62) 

□ 

(8-63) 
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证明： 可由定理 8 . 6.2 和定理 8 . 6.1 的推论直接得到。 □ 

应用 （阿达玛不等式）设 X 〜 A/*(0,/C) 是一个多元正态分布，那么将燒的定义 
公式代入上面的不等式中，我们就可以得到 

I K ITK^ (8-64) 

此即为阿达玛不等式 3 许多有关行列式的不等式由信息论中的不等式通过这种方式推导而 
得到(见第17章)。 

定理 8.6.3 

h(X + c ) = h ( X ) (8-65) 

平移变換不会改变微分熵。 

证明： 可由微分熵的定义直接得到。 □ 

定理 8.6.4 


h ( aX ) = h ( X ) ^\ og \ a \ 


( 8 - 66 ) 


(8-71) 


证 明：令 则 / y (：y) = j^/x(f 且经过积分变量替换，有 

h(aX) = - ^ fY ( y )^ ogf Y ( y)dy (8-67) 

= -iTTT^ff W^l /x (f)) d> (8 ' 68) 

=- J/x(x)log/ x ( J：)dr + log I a I (8-69) 

= h(X) + \og\a\ (8-70) 口 

类似地，对于取值为向童的随机变里，可以证明 T 面的推论。 

推论 

A(AX) = ^(X) + logldet(A)| (8-71) 

我们现在将证明在具有相同协方差阵的所有随机向 ft 中，多元正态分布使熵达到 M 大。 

定理 8.6.5 设随 机向量 的均值为零，协方差矩阵为 K = (即 K^EX^.Ki, 

则 /z(X)<ylog(2TO)"lKl, 当且仅当 X 〜人 ^0, 尺） 等号 成立。 

证 明：设 g(x) 是对任意的 f 和）均满足 \g(x)x^dx = K it 的密度函数。令心是服从如式 
(8-35) 中所给出的 Y(0,K) 随机向最的密度函数，这里令 p=0。 注意到 log^c(x) 是一个二次型， 

并且 J' > rg/ K (J：)dx = ~，则 

0<D(g|| 4 > k ) (8-72) 

= Jglog(g/^ K ) (8-73) 

=- h(g) - Ulog^K (8-74) 

= - h ( g )-\ 4 > K \ og^ K (8-75) 

= -h(g)-^hU> K ) (8-76) 

其中所作的替换 = \ h \ o % h 是由于二次犁 log 心 U) 关于 g 和心具有相同的矩。 口 
特别，在所有具有相同方差的分布中，高斯分布使得熵最大化。这就可引出一个与费诺不等 
式极其相似的估计。设随机变量X的微分熵为 /KX)， X为X的估计， E(X-X ) 2 表示期望预测 


(8-73) 

(8-74) 
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误差。以下 A ( X ) 的量纲为奈特。 

定理 8.6.6 ( 估计误差与微分熵）对任意随机变量 X 及其估计又, 

E ( X - X ) 2 >^ (x) 

其中等号成立的充分必要条件是 X 为高斯分布而欠为其均值。 

证明： 令欠为 X 的一个估计，此时 

E(X-X ) 2 >minE(X-X ) 2 

= E(X-£(X )) 2 
= var(X) 

* .„2 A ( X > 




27TC 


(8-77) 

(8-78) 

(8-79) 

(8-80) 


其中，式 (8-77) 成立是因为 X 的均值是 M 佳估计，而最后一个不等式是由于高斯分布在给定 
方差的条件下具有最大熵。所以，式 (8-77) 变成等式仅当 欠 =£：(；0 是最佳估计而式 (8-80) 变成等 
式仅当 X 是高斯分布。 □ 

推论当边信息 Y 以及估计欠（ Y ) 已知时，可以推出 

E ( X - X ( Y )) 2 > 


y ) 


2 irc 
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要点 


h(X) = h(f) =-Jy(a:)log/(x)dr 
f(XT)=2 ^ ix) 

m[x] 2 •) 勿 / i(X)+” 
k (//(0 t a 2 )) = -^log 2 ice ^ 

h ( U m ( fi , K ))^^\ og (2 ner \ K \ 

^(X,,X 2 ,-,XJ = E/»(X, I XoXz ， … ， Xh) 


h ( X \ Y )< h ( X ) 

A(aX) = /i(X) + k3glal 


/(X ； y)= j/(a ： f y)log 


fU.y) 


f(x)f(y) 

max/i(X) = -ylog(2xe)-|Kl 

JCD^-K L 

E(x-X(y) ❼心⑽ 1 y> 

2 # ( ；0是 一个离散随机变置的有效的字母表大小。 


>0 


(8-81) 

(8-82) 

(8-83) 

(8-84) 

(8-85) 

( 8 « 86 ) 

(8-87) 

( 8 - 88 ) 

(8-89) 

(8-90) 

(8-91) 

(8-92) 
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2 wx > 是一个连续随机变置的有效的支撑集大小。 
2 c 是一个容贵为 C 的信道的有效的字母表大小 c * 





习题 

8.1 微分熵。计算下列各密度函数的微分熵 MX ) =- f / In /•• 

( a ) 指数密度函数 /( x ) = A e a ，: r >0 。 

( b ) 拉普拉斯密度函数 /( or ) =+ Ae _AUI 。 

( c ) &与&的和的密度函数，其中&与义 2 是独立的正态分布，均值为并，方差为 = 

8.2 式的凹性。设 Kt 和 K 2 为两个” x ”对称非负定矩阵。证明 F 列由樊畿 (Ky Fan )[199] 
给出的结果： 

\ XK l ^ XK 2 \>\ K l \ x \ K 2 \ i 9 对于000 =卜 A 
其中 IKI 表示 K 的行列式。[提示：先假设 X ^ NCO . K ,), X 2 - N (0, K 2 ), 以及沒= 
Bernoulli ⑴，令 Z = ‘ 然后利用结论 MZl 幻 </ i ( Z )。] 

8.3 均勾分 布噪声 。设一个信道的输入随机变址 X 服从区间上的均匀分布，而 
信道的输出信号为 y=x + z , 其中 z 是噪声随机变攮，服从区间上的均 

匀分布。 

U ) 求 f ( x ; y ) 作为 a 的函数。 ^ 

( b ) 对于 fl = l , 当输入信号 x 是峰值约束的时候，即 x 的取值范围限制于 

时，求信道 容撖。 为使得互信息 /( x ; y ) 达到最大值， x 应该服从什么概率分布？ 

( c ) (选做>当 a 的取值没有限制时，求信道容这里仍然假定 x 的范围限制于 - 

工<1/2。 , 

8 4 量化的随机变量。已知镭元素的半衰期为80年，我们欲描述镭原子的衰变时间（以年计 
算），如果精确到3位数字，这样的描述平均大 ㈣ 要多少比特？注意半賴就是分布的中 

位数。 

8.5 尺度性质。设/*(幻=- |/ U ) log / U ) 办 ，证明 h ( AX ) = \ og \ dcx ( A )\ + h ( X)o 

8.6 变分不等式。对于正随机变量 X ，验证 

logE F ( X ) = sup [ E Q ( logX )- D(Qll P )] (8-93) 

其中 £ P ( X )= gxPU ) 以及 D ( Q || P ) = ^ Q (:) log ^^, 并且上确界是取遍所有 
QU ) 彡0, ^ Q ( x ) = 1。使得 */( Q ) = £： Q ( inX )- D(Qll P ) + M fQU ) - 1) 极靖化 

的 Q 就足够了。 、 

8 .7微分熵界定离散熵。令 X 为集合义= Upa 2 ,".! 上的离散随机变量 ， Pr ( x = a i ) = 户•。证月 

«(/>!.!log(2ire )( 吝 A，. 2 _ ( § *>• ) 2 + 忐） 

更进一步，对于任何置换〃， 〃 农 

H (/> 1 ,/> 2 r -0<| M27re) (|? /，tf(l)1,2 _ (§也⑴ )2 + H ) (_ 
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(提 示： 构造一个随机变量； T ， 使得 Pr ( X ' = f ) = p ,。 令 L ； 为 (0, 1] 上的均匀分布随机变量， 

再令 A ：' + t ；, 其中 X '与 L 7 相互独立。利用最大熵界定 Y 来获得该问题的两个界。该 
界归功于 Massey 与 Williams 的未发表的文章。） 

8.8 有均匀干扰嗓声的信道 。设一个可加信道的输人字 母表/ =彳 0 ,± 1 ,土 2 |而输出为 y=x + 

Z 、 其中， Z 是区间[-1， 1] 上的均匀分布。于是，信道的输入是一个离散的随机变童，否 
则输出是连续型的。计算该信道的容量 C = max p ( x ) /( X , y)o 
8.9 高斯 互信息 。假设 ( X , y ， z ) 是联合高斯分布，并且 x — y — z 构成一个马尔可夫链。令 
( X , 7)与（ Y ， Z ) 的相关系数分别为&与内。求 J ( X ; Z )。 

8.10 典型集的形态 。令 X ,为服从 /( z ) 的独立同分布序列，其中 * 

f ( x ) = ce' x 

今 h = -\f ln / o 描述典型集 A ^= U ”€ 尺” :/ U ”）€2-” w > | 的形态。 

8.11 非遍历高斯过程。 考虑在具有独立同分布白噪声12,1干扰背贵的信道中的一个常信号 V 。 

于是， X ,= V + Z , 为接收信号。假定 V 与 | 乙 I 独立，那么考虑下列问题 •• 

( a ) |足1 平稳吗？ [258 

( b ) 求极限£ X . O 它是随机的吗？ 

( c ) 的熵率 /* 是_少？ 

( d ) 求它的 般 小均方误差估计兄 ^( V ), 并求出 

( e ) 有没有 AEP ? 即 -七 logjXX ^)—/! 成 立吗？ 


历史回顾 


香农在他的原创性论文 [472] 中对微分熵与离敗熵进行了介绍。关于任意随机 变鼠的 相对熵 
和互信息的一般化的严格定义，是由科尔莫戈罗夫 [319] 和 Pinsker [425] 发展的，他们将互信息 
定义成 suPpe /([ x ] P ; [ y ] Q ), 其中的上确界是关于所有有限的分割 P 和 Q 取得的。 _ 
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最重要的连续字母表信道是如图 9-1 中所描述的高斯信道。它是一个时间离散信道，在时 
刻 h 输出信号是输人信号 X ,与噪声 Z , •之和 y ,, 其中乙为独立同分布序列且服从方差为 N 的高 
斯分布。于是， 

V .- X . + Z ,, Z ,- AT (0, N ) (9-1) 


假设噪声乙与信号 X ,相互独立。该信道是对于许多普通的通信信道的概括，比如有线与无线电 
话信道和卫星链接信道。若无进一步的条件限制，该信道的容景可以为无穷。如果噪声的方差 
为零，接收者可以完全无误地收到每一个被传输的字符。由于 X 可以取任意实值，所以这个信道 
可以准确无误地传输任何一个实数。 

如果噪声方差不为0且对输人信号没有限制，可以选择输人信号的 
一个任意分散的尤穷子集，使得我们可以在输出端口以任意小的误差概 
率识别它们。该方案也具有无穷的容撖:> 于是，如果噪声方差为0或者 
对输入信号没有限制，则信道的容 S 为无穷。 

对输人 ft 通常的限制是在能贵或者功率方面的约束。假定对于平均功率的约束，即对于在 
信道上传输的任意码字 U | f x 2 ,•••,〜）， 我们要求 



士 (9-2) 

n .-I 

这样的通倌信道模拟许多实际的信道，包括无线电和卫星通信。信道中的可加噪声可能源 
于各种各样的因家。然而，根据中心极限定理可知，大位的小随机亊件的累积效果渐近于正态分 
布，所以在许多情形下高斯假设都是有效的。 

首先分析一个简单的次优方法来使用该信道。假定使用该信道一次发送1比特消息。在额 
定功率限制下，最佳方案是发送 + 和之中的一个。接收者根据接收到的 y 来揣测发送 
的是两个中哪一个。假定二者是等可能的(若我们想发送1比特的消息，这恰好相符），则最优的 
译码规则为•.当 y > o 时认为发送的是+ %/戸，而当 y < o 时认为发送的是 -/ P 。 此译码方案的 


误差概率是 


P e =yPr(V<0lX= +>/F ) + yPr(Y>0!X= -界、 (9-3) 

= +Pr(Z<-yF|X= -fTP ) + -ip r (Z>v / P |X= (9-4) 


= Pr ( Z > v / P ) (9-5) 

= l -0(/ F 7 iV ) (9-6) 

其中是累积正态分布函数 

= I -^ Lre ^" dt (9-7) 

若使用如此的方案，将一个高斯信道转换成一个交叉概率为 P , 的离散二元对称信道。类似地, 
如果使用四输人信号，可将高斯信道转换成--个离散四元输人信道。在一些实际的调制方案中， 



类似的思想也应用于将连续信道转换为离散信道的情况。离散信道的主要优点是易于对输出符 
号做纠错处理，但是在量化的过程中某些信息会丢失。 

9.1 高斯信道 ：定义 


我们现在定义信道的(信息）容 M , 它是输人和输出之间的互信息关于满足功率限制的所有 
输入分布的最大值。 

定义功率限制为 P 的高斯信道的信息容量为 

C = m^c /(X ； y) (9-8) 

计算该信息容童的方法如 下：将 由于2与 X 相互独立，我们可得 

Hx ； y ) = /*( y )-/*( yix ) (9-9) 

= h ( Y )- h(X + Z \ X ) (9-10) 

= h ( Y ) - h(Z I X ) (9-11) 

= h ( Y ) - h ( Z ) (9-12) 

此时， / i ( Z ) = ylog 27 reNo 又由于 X 与 Z 独立以及 £：Z = 0, 所以 

EY 2 = FAX + Z ) 2 = EX 2 + 2 EXEZ + £ Z 2 = P + N (9-13) 

假设给定£，= />+~,则由定理8.6.5(在给定方差下，正态分布使熵达到最大）可知 ， y 的熵 

的上界为 '! _ log 27 re ( P + N ) 0 

利用上述结果可以获得关于互信息的上界，我们得到 

/(X ； y) = h ( Y )- h ( Z ) (9-14) 

< ylog 27 re(P + N ) - ylog 27 reN (9-15) 

= X 1 + N) (9-16) 

因此，高斯信道的信息容 tt 为 

C = max /( X ; V ) = ylog(l + 务） (9-17) 

并且最大值在 X 〜 AT (0, P ) 时达到。 

下面将证明这个容最也等于该信道的所有可达码率的上确界。证明过程与离散信道情形相 
类似。首先给出相应的定义。 

定义一个功率限制为 P 的高斯信道所对应的 （ M ， n ) 码由以下几个要素 构成： 

1. 下标集11,2,…， 

2. 编码函数1:|丨，2,…，其相应的码字为* r ”（ l ), x n (2)， …，且满足功率 
限制 P , 即对每个码字 

^x^(zv) ^ nP 9 w = (9-18) 

3. 译码函数 

g :； V ”- Hl ，2 ，".，Ml (9-19) 

该编码的码率和误差槪率的定义与第7章中离散情形相同。误差概率的算术平均定义为 

(9-20) 

定义对于一个功率限制为 P 的高斯信道，如果存在码字满足功率限制的一个(2〜， 幻码 


序列，使得最大误差概率则称码率 R 关于该功率限制为 P 的髙斯信道是可 达的。 

可以证明高斯信道的容量即是所有可达码率的上确界。 

定理 9.1.1 一个功率限制为 P 且嗓声方差为 N 的高斯信道的容量为 

2^ C = jlog(l + 务)比特 /传输 (9-21) 

注释我们首先给出为什么能够构造出低误差 溉率的 (2<, 71) 码的直观论述。考虑长度为 
n 的一个任意码字，则接收到的向量信号服从正态分布，并且其均值与真实的码字相等，方差等 
于噪声的方差。所以，接收到的向董将以很高的概率落在以真实的码字为中心，半径为 
/^ rr ) 的球内。如果我们将该球中的所有向量指定给这个真实的码字，则当发送该码字时， 
只有当接收到的向 ft 落在该球外时，译码才会出现错误，而且发生的概率很低。 

类似地，可以选择其他的码字及其对应的译码球。能够选择多少个这样的码字呢？ 一个 n 
维球的体积公式是 C〆 1 , 其中 r 表示球的半径。在这种情况下，每个译码球有半径这些 
球遍布于接收向量空间。接收到的向敏的能 M 不会大于 //( P + N ), 所以它们落于半径为 
刃的球内。在这个体积内互不相交的译码球的最大数0不会超过 

㈣ 丄 ， ：如卜吾) (9-22) 

C n ( nN )2 、 N ’ 

_于是，该码的码率为 + 专)。图 9-2 可以说明这个思想。 

这个填球模型说明不能期望以高于(：的码率而以低误差概率发送信号。然而，实际上能办到 
的也几乎就是下面我们能够证明的。 

证明 （可达 性）： 我们将利用与离敗信道情形时的信 
道编码定理的相同证明思路，即随机码和联合典型性译 
码方案来证明可达性。然而，考虑到功率的限制以及变 
M 为连续的而非离散的，我们必须做一定的修改。 

1. 码簿的生成。 我们希望生成一个所有码字都满足 
功率限制的码簿。为达此目的，生成的码字必须是服从 
于方差为 p - e 的正态分布的 i . i . d . 序列。由于对充分大 

的 M ， 有丄乙; c ?— p - e ， 所以一个码字不满足功率限制 
n 

的概率将会很小。令 X ,( w )，: = 1,2,*"， ti , u ^1,2，"， 

2必为 i . i . d 〜鄉，？1),形成码字： T (1)， XM 2) ，…， ® 9 ' 2 #于_信道的__ 

2. 编码。 码簿生成之后，将其告之发送者和接收#。为了发送消息下标 us 发送器则发送 
码簿中的第 u ； 个码字; T ( u ;>。 

3. 译码。接收者在码字列表中寻找与接收到的向量是联合典型的码字。如果存在 

且仅存在一个这样的码字 V ( uO , 则接收者断定 W = 就是所传输的码字。否则，接收者 

断定出现错误。如果被选择的码字不满足功率限制，则接收者也断定它出现错误。 

4. 误差概芈。不失一般性，假定码字1被发送。于是， V " = X ”（1) + Z % 定义下列 事件： 

E 0 = I 士 S \ 2 (1 )>H (9-23) 



和 




斯信道 


£, = KXMihV ") 在义卜中！ (9-24) 

如果出现(违反了功率限制），或者巧出现（所传输的码字与接收到的序列不是联合典型 
的），或者出现（某个错误码字与接收到的序列是联合典型的），则会出现错_ 
误。令^代表事件卬关 V ， P 表示在给定的条件槪率。因此，根据事件的并的概率不 
等式， 

Pr (£ | W = 1 ) = P (£) = P ( E 0 U 6 U £ 2 U E 3 u … U £，） (9-25) 

< P ( E 0 ) + P ( E f 1 )+ (9-26) 

由大数定律，当⑺时 P (£ o )— 0。现在，根据联合 AEP (它的证明与离散情形的证明相同）， 

有 P (£\’)一 0,因此 

Pi^Xe n 足够大 (9-27) 

由码的生成过程可以看出 X "( l ) 与 X "(0 是独立的，所以， V " 与 X "( i ) 也是独立的。因此，根据 
联合 AEP , X ”⑺与 P 为联合典型的槪率 <2 i u < x ; y > m 。 

现在令 W 是 II , 2 ,…， 2—1 上的均匀分布，因此， 

Pr (0 = z^^ i = P：" ) (9-28) 


此时，对充分大的 n 和 /?</ U ; y )-3 e , 有 

, Pi n) = Pt (£) = Pr(£ I W = 1) 

<P(E 0 ) + Pi^) + i>(£,) 

i-2 

<e + 6+ f；2 - 義 ㈣ 


(9-29) 

(9-30) 


(9-31) 


= 2c + (2^ - l)2 -n(,(X;Y) " 3,) (9-32) 

<26 + 2 3 " c 2-" (,(X5V) - r) (9-33) 

<3e (9-34) 

这证明了一个好的 (2#, n ) 码的存在性。 

现在选择一个好的码簿，并删除其中最坏的一半码字，获得一个新的码，它具有低的最大误 
差概率。特别地，剩 T 的每一个码字都满足功率限制（这是由于不满足功率限制的码字的误差概 
率为1，它必定属于码字中最坏的那一半）。因此我们已经构造出一个码，它的码率可以任意接 
近信道容 M 。 至此，完成了定理前半部分的证明。在下一节中，我们证明可达码率不会超过信道 
容景。 ° 

9.2 高斯信道编码定理的逆定理 




在这节中，通过证明码率 /?> C 是不可达的，来完成高斯信道的容量是 C = + log(l + 务)的 

证明。该证明与离散信道情形下的证明相类似。主要的区别在于引入了功率限制这个新因素。 

证明 （定理 9.1.1 的 逆）： 我们必须证明，对于功率限制为 P 的髙斯信道中的一个(2必， 《) 序 
列，当时，則 

R<C = y!og(l + ^) 

考虑满足功率限制的任意一个(2#， 《) 码，即对 u » = l , 2,…，2#，满足 


(9-35) 
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丄 (9-36) 

H t = l 

与离散情形时对于逆定理的处理一样，令 W 为|1，2，一,2#|上的均匀分布。下标集 W = II ， 
2,…， 2&1 上的均匀分布诱导出输人码字集的分布，进而诱导出输入信号字母表上的分布。这指 
定了关于链 W — 的一个联合分布。我们可以用费诺不等式得到 
268| H(W I WX1 + nRP^ = ne n (9-37) 


其中 当尸， —0 时％—0。从而， 

nR = H(W) = HW ； W) + H( W I W) (9-38) 

</(W ；VV) + n£ n (9-39) 

< /(X";^) + n£ n (9-40) 

=/z(y") - /*(y" I X") + 72e„ (9-41) 

=/ l (Y n )-/ I (Z") + r2£ B (9-42) 


—A(Z")+ (9-43) 

i«l 

=+ 成 ” (9-44) 

i«l i"l 

= 公 /(X,;y,) + (9-45) 

卜 1 

其中 X , = x ,( W ), 而 W 服从于 11,2,••• ,2# I t 的均匀分布。现在令 P , 表示码簿中第 / 列的平均 
功率，即， 


P . = 古 Sd(w) (9-46T 

那么，由于\ = 乂, +乙且足与乙是相互独立的，则 y, 的平均功率£>1是尸,+ ~。因此，由正 
态分布使熵达到垴大值，可得 . 

h(Y i )^^\ogZMP,-^ N) (9-47) 

继续考虑相反的不等式，我们得到 

nR<2U(y.) -/*( 乙 )）+ 成 ” (9-48) 

<l ： (~log(2ire(P, + N))- 士 log27re/V) + % (9-49) 

269| = Sylog|l + ^ j + ne n (9-50) 

由于每个码字都满足功率限制，自然它 in 的平均也满足功率限制，因此 

丄 (9-51) 

n i 

由于 /(jO^logd + o：) 是一个关于 j： 的凹函数，可以应用 Jensen 不等式获得 

-^E^-log(l + g)<|log(l + ^Sg) (9-52) 

<jlog(l + 务） （ 9-53) 

于是， ^<ylog(l + ^) + e fl , e”-0。 至此，完成了所欲证明的逆命题。 

注意功率限制条件是在式 (9-46) 中才正式进人证明过程的 3 
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9.3 带宽有限倍道 


对于在无线电网络或者电话线上进行的通信来说，通用的模型是带白噪声的带宽有限信道。 
这是一种时间连续信道。这种信道的输出可以描述为 

Y ( t ) = ( X ( t ) + Z ( t ))* h ( t ) (9-54) 

其中 XU ) 是信号的波形， ZU ) 是高斯白噪声的波形， / i ( f ) 是一个理想低通滤波器的冲击响应， 
它的作用是将大于 W 的所有频率过滤掉。在这节中，我们给出计算这种信道容董的简化论述。 

首先论述由 Nyquist [396] 和香农 [480] 给出的表示定理，它说明了以采样频率+对一个带 
宽有限信号进行采样足以从这些样本中重构信号。直观上来看，这是由于如果一个信号的最大 
截频是 W , 那么它在信号最大截频的半周期时间内不会发生很大的变化，也就是说，信号在小于 


+秒的时间间隔内不会发生很大变化。 

定理9.3.〗假定信号 / U ) 的最大截頻为 VV , 即对所有大于 W 的频率，该信号的谱为0。 

那么该信号可由间隔为+秒的采样序列完全决定。 

证明： 设 FU ) 表示/(0的傅里叶 ( Fourier ) 变换。由于 F ( o >) 在带宽 - 之外 
为0,则 


/(/) = ^ F(a;)^dw 


(9-55) 


[ 270 ] 


=士丨 (9-56) 

加 -2«W 

如果考虑间隔为+秒的采样序列，则信号在采样点的值可写为 

^2w) = 2SZw FMe ^ d(V (9-57) 

若将区间 （2 irW ) 作为基本周期，上述等式右边也是信号 FU ) 的视为以 [-2 ttW , 2 nW ] 
为第一主周期的周期信号的傅里叶级数展开式中的系数。因此，采样值决定了该傅里叶 
展开式的系数。由于一个函数可由它的傅里叶变换所惟一决定，并且 F ( o >) 在带宽 W 之外为0, 
因此，可以由采样序列来惟一决定该信号。 


考虑函数 


sinc (0 = 


smUnWt ) 

2 nWt 


(9-58) 


该函数在/ = 0时为1,在 n 关0时为0。这个函数的频谱在频带 （- W ， W ) 之内为常 
数，在该频带之外为0。现在定义 

= •§/(☆)▲(’-☆) (9-59) 

由函数 sine 的性质可知， g (0 的最大截频为 W ， 且在 r = ”/2 W 时等于 /( n /2 W )。 由于满足这 
些限制条件的信号只有一个，则必有 g (/) = / U )。 于是得出了 /(0可由采样序列重构的一个显 
性表 达式。 口 

一般来讲，一个信号具有无限个自由度，即信号在任意采样点的值是独立选取的。而 
Nyquist-Shannon 采样定理说明一个具 有域大 截頻的信号仅有每秒 2 W 个自由度。信号在采样点 
上的数值可以独立选取，这些特定的值就决定了整个信号。 
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如果一个信号是带宽有限的，那么在时间域上，它就不可能再是有限的。但是我们可以考虑 
这样的 信号： 它们的绝大部分能最都集中在带宽 W 内，且在一个有限时间区间内，例如在(0, 
T ) 内。我们可以用长 球函数 (prolatespheroidal function ) 组成的基底来描述这些信号。我们并不在 
此深入讨论该理论的细节，而只需知道对于几乎时间有限且几乎带宽有限的信号的集合，存在大 
约 2 TW 个规范正交函数基底，我们可以在这个基底下用坐标来描述上述集合内的任意函数。想 
进一步了解的读者，可以参阅 Slepian ， Landau 和 Pdlak 的一系列论文 [340, 341, 500]。而且，白 
噪声在这些基向量上的投影构成一个独立同分布的高斯过程。综上所述，可以将带宽有限，时间 
有限的信号视作一个 2 TW 维向最空间中的向量。 

接下来回到带宽有限信道的通信问题上来。假定信道的带宽为 W , 可以使用1/2 W 秒的时 
间间隔的采样序列来表示输入和输出信号。每一个输入采样值被噪声污染后得到相应的输出采 
样值。由于噪声是高斯白噪声/所以每噪声的采样序列是一个独立同分布的高斯随机变里列。 

如果噪声具有功率谱密度 N 0 /2 瓦特/赫兹且带宽为 W 赫兹，那么噪声的功率为 = 
N 0 W , 并且在时间了内，该噪声的这 2 W ： T 个采样值中的任何一个的方差均为 NoWT /2 W：r = 
N 0 /2 o 如果将输人信号视作 2 WT •维空间中的一个向 ft , 可以看到接收到的信号围绕着输入向 
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量服从协方差矩阵为的球状正态分布。 

下面可以应用前面得出的关于离敗时间高斯信道的理论，其中信道的 容最为 

C = ylog(l + ^) 比特 /传输 (9-60) 

假设使用信道的时间区间为[0, 了]。在该情形下，每个样本的功率为 PT /2 HT = PaVV , 每样 

因此每样本容愤是 
P 


本的噪声方差为@2 W ^； = $ 


C 


2W 


No 

2 


m i + N ^> 比特/样本 


(9-61) 


由于每秒内存在 2 W 个样本，所以信道的容 fl 可以重新写成 

P 


C = Wlog ( l +^) 比特 /秒 


(9-62) 


上述方程是信息论中最著名的公式之一。它利用噪声谱密度@(瓦特/赫兹）和功率 P (瓦特）给 
出了一个带宽有限的高斯信道的容量。 

关于信道争论的一个更准确的版本见 [576], 它考虑当信号在带宽为 W 的情况下，只考虑能 
镦在信道的带宽之外很小，以及在时间段(0, 了)之外的能世也很小。也就是说，当处于带外的能 
量趋于0时上面所说的容量也可以达到。 

如果令式 (9-62) 中的 W — oo , 则可以得到 

C = lofee 比特 / 秒 （9-63) 

它是具有无限带宽，功率为 P ， 噪声谱密度是 N 0 /2 的信道的容 M 。 所以，对于无限带宽信道， 
信道容贵与功率成线性增长关系。 

例 9.3.1( 电话线） 为了实现许多信道的多路传输，往往限制电话信号的带宽为3300 Hz 。 
在式 (9-62) 中使用3300 Hz 的带宽和33 dB (即 W = 2000) 的 SNR (信噪比），我们发现电话信 
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道的容量大约为36 000比特增。实际的调制解调器可以在电话信道的双方向上达到至多33 600 
比特外的传输率。在现实的电话信道中，存在着许多其他的因素，例如串线，干扰，回声和非平 
坦信道等。为达到上述的容量，必须对这些因素进行补偿。 

利用一个纯数字信道来实现网络中服务器到终端电话开关之间的转换，可以使 V .90 式调制 
解调器在电话信道的一个方向上达到56 kb / s 。在这种情况下，损害仅在于数字到模拟之间的转 
换和从开关传送到用户的铜线连接噪声。这些损害减少了最大比特传输率，从在网络中数字信 
号的传输速率64 kb / s 锐减到电话线路中的56 kb/s (且是最好情形）。 

连接家庭与程控交换器的铜线实际可以获得几兆赫的带宽希求，这取决于线路长度。频率 
响应在这个频带上是完全不平坦的。如果整个带宽都被利用，那么通过这种信道每秒可以传输 
几兆。一些方案，如 DSL (数字专用线）通过在电话线的两端安装上特殊的装置（不像调制解调， 
在电话开关中不需要调制）可以达到这个传输水平。 


9.4 并联高斯倍道 


在本节中，我们考虑具有一个公共功率限制的 A 个独立的并联高斯信道。我们的目标是将 
总功率分配于这些信道之中以使容 敏达到 最大。该信道是可加高斯非白噪声信道的模甩，其中每 
个并联的组件代表一个不同的频率。 

假设有一组如图 9-3 所示的并联髙斯信道。每个信道的输出是输入与高斯噪声之和。对于信 
道）， 

Yj = Xj + = 1,2, …， 々，- (9-64) 

其中 



(9-65) 

并且假设噪声在信道与信道之间是相互独立的。假定在所使用的总功率 
方面存在一个公共的功率限制，即， 

(9-66) 



我们希望将功率分配于各信道之中以使总容《达到 S 大。 


信道的信息容 MC 为 


C = max /(Xi ， X 2 ， ,# *,X 4 ; V| f V*) (9-67) 

/(a 

我们来计算当该信道达到信息容*时所应服从的分布。信息容童是所有可达码率的上确界，这 
一事实的证明与单个高斯信道的 容最定 理的证明方法相同，故略去。 

由于 A ， Z 2 , …， Z * 是相互独立的， 

/(x 1 ,x 2 ,-,x* ； y 1 ,y 2 ,-,v*) 

= h(Y lt Y 29 - 9 Y k ) - h(Y lt Y 29 -,Y k I X lf X 2 ,-,X*) 

= h(Y l9 Y 2f -,Y i ) - h(Z lf Z 2f - 9 Z k I X,,X 2 ,-,X*) 

= h(Y l ,Y 29 - t Y k ) - h(Z lf Z 2t - 9 Z k ) (9-68) 

= h(Y l9 Y 29 -',Y k )~ I>(2,) (9-69) 

f 

( 9 _ 70 ) 


<Eyiog(i + ^) 


(9-71) 


273 


274 


275 







其中 P , = £ X ?， SP , = P 。 等号在如下条件达到时成立 


(9-72) 


由此，问题简化为在满足约束条件 = F 下，寻求一个功率分配方法使得容量达到最大。 
这是一个标准的最优化问题，可以利用拉格朗日乘子法得到解决。相应的函数为 


Pi 

0 … 

0*] 

0 

• 

攀 

p 2 … 

• • 

■ • 

0 

參 

會 

.0 

參 • 

0 … 

• 

pj. 


Z 76 


J(P M —,P*) = Sylog| 1+^) + A(SPi) 


对 P , 求导，我们有 


或者 


2 P, 


(9-73) 


(9-74) 


P, = t; - N, (9-75) 

然而，由于尸，必须非负，所以，并不总能找到一个如此形式的解。这样，可利用库恩-塔克条件 
来验证如下解 

P, = (v-NiV (9-76) 

使得 容射达 到最大的分配方法，其中 I ；的选取满足 

EU —N,r=P (9-77) 

这里 ( xr 表示对 I 取正的部分： 

lo Jl <°0 (9 - 78) 

这个解可用图 9-4 中的图形说明。纵向层表明了不同信道的噪声等级。由于信号功率由零 
开始增加，先将功率分配给噪声水平最低的信道。当进一步增加可获得的功率时，一部分功率分 
配给哚卢更大的信道。总功率在各个小隔断中分配的过程类似于水在容器中的分配方式。因此， 
这个过程有时候称作注水法 (water filling )。 

功串 ♦ 


(9-78) 


信道丨 信邁2 愔邁 3 

图 9-4 并联信道的注水法 


9.5 高斯彩色噪声信道 

在 9.4 节中，考虑了一组并联独立高斯信道的情况，其中不同信道的噪声样本是相互独立 
的。现在来考虑噪声互相相关的情形。这不仅代表了并联信道情形，也代表了有记忆高斯噪声 
信道的情况。对于有记忆的信道，可把连续〃次使用同一个信道的效果视作使用一次由噪声相 
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关的《个信道并联所得的信道。与 9.4 节中一样，仅计算该信道的信息容量。 

设1^为噪声的协方差阵，为输人信号的协方差阵。那么，对于输入信号的功率限制可 


以写为 


(9-79) 

或等价地 




X it(K x )<P 

n 

(9-80) 

不同于 9.4 节，这里的功率限制依赖于 
与独立信道情形相同，我们有 

/( x I , x 2 ,-, x n ； y 1 , y 2 ,- 

因此，我们不得不对每个 〃 单独计算容摄。 

t Y n ) = h(Y lf Y 2 t - 9 Y n ) - h(Z l 9 Z 2 t - 9 Z n ) 

(9-81) 


这里，…，乙）由噪声分布惟一决定，而不依赖 T 输人信号分布的选择。 所以 ，计算信道 
容贵等价于将…， A ) 最大化。当 Y 服从正态分布时，输出信号的熵达到最大，这情 
形在输人分布是正态分布时达到。由于输入信号和噪声是相互独立的，所以，输出 Y 的协方差 
矩阵为 K y = K x + K z ， 且熵为 

/ l ( y If V 2 ,-, y „) = ylog ((27 rc )" lK x + K z l ) (9-82) 


于是，问题简化为在的迹约束条件下，选取 K x 使得 IK X +K 2 | 达到最大。为达此目的，将 
分解成对角型， 


K z = 其中 QC? = J 

(9-83) 

那么 


|K X + K Z I = IK X +QAC?| 

(9-84) 

= IQ||C?K X Q + A||Q , I 

(9-85) 

= iaKx« + A| 

(9-86) 

=IA + AI 

(9-87 ) 丨 

其中 A = C/KxQ 。 由于对任意矩阵 B 和 C, 


tr(BC) = tr(CB) 

(9-88) 

则 


tr(A) = tr( QKxQ) 

(9-89) 

= tr( QQKx) 

(9-90) 

= tr( K x ) 

(9-91) 

于是问题简化为在迹约束条件 tr(/\)<nP 之下，求 IA + AI 的最大值。 


现在利用第 8 章中提及的阿达马不等式。此不等式说明任意正定阵 K 的行列式一定小于它 

的对角元素的乘积，即 


IKK ITk„ . 

(9-92) 

当且仅当矩阵为对角型等号成立。于是， 


ia+ai< n (心 + 心） 

(9-93) 


当且仅当 A 为对角型等号成立。由于 A 受到迹的约束， 

士？ A„<P 


277 


278 


(9-94) 




160 


第 9 章 


且 A „ >0, 所以，+ A ,) 的最大值在 


(9-95) 


279 


时达到。然而，考虑到约束条件，不可能总是存在正的 A „ 满足上述方程。在不满足的情形下， 
根据标准库恩-塔克条件可以证明最优解对应于取 

A ,, = ( v-XiV (9-96) 

时的解。其中选取 I ；使得 2 A ,, = nP 。 此时 A 的值使 Y 的熵达到最大，因此，互信息达到最大。 
我们可以从图 9-4 中看出上述方法与注水法之间的联系。 

考虑这样一个信道，它的可加高斯噪声构成一个具有有限维协方差阵的随机过程。如 
果该过程是平稳的，则协方差阵是特普利茨 ( Toepliiz ) 矩阵，并且当 n — oo 时所有特征根都有个极 
限。而特征值在实轴上凝聚出来的包络函数趋近于该随机过程的功率谱[126]。因此，在频域中， 


也可以得到相应的注水法。 

因此，对于噪声为一个平稳随机过程的信道而 
言，输人信号应选为一个髙斯过程使得在噪声的频 
潜小的 频率上它的频谱大。图 9-5 说明了这个情 
况。可以证明一个噪卢功率谱为 N (/) 的可■加高斯 
噪声信道的容*为 [233] 

c = + (9 - 97) 
其中 V 的选取满足 J "( x ； - N (/) 广 d / = P 。 



9.6 带反馈的高斯信道 


在第7章中证明了反馈不会增加离散无记忆信道的容贵，这对减少编码或译码复杂度很有帮助。 
对于可加白噪声信道，上述结论依然成立。与离散情形一样，反馈不增加无记忆髙斯信道的容 M 。 

然而，如果信道有记忆，即噪声在两个不同的瞬间是相关的，反馈确实会增加容不带反 
馈的容 M 珂以用注水法计算，而带反馈的容量，还没有给出任何淸晰的刻画。在这节中，我们将 
根据噪声 Z 的协方差阵来给出这种容量的表达式，证明关于该容 ft 表达式的逆定理。然后，推导 
出因反馈引起的容量增加的一个简单的界估计。 

如图 9-6 所示一个带反馈的高斯信道。信道的输出信号 Y , 为 
Ml V, = X, + Z, , - M(0,K { z n) ) (9-98) 

反馈允许信道的输人依赖于过去的输出值。 

带反馈的髙斯信道的（2必，《)码由映射序列 
构成，其中 we 11，2,…， 2必1 是输入消息， V *- 1 是过去的输 
出值序列。所以，： r ( W ") 是一个码函数而非一个码字。除此 
之外，要求该编码满足一个功率限制， 图 9-6 带反馈的高斯信道 

E [ 士 ( 访 II ， 2,… ， 2 叫 (9-99) 

其中期望关于所有可能的噪声序列取值。 

利用输入 X 和噪声 Z 的协方差阵刻画高斯信道的容量。由于反馈的存在， X "与 Z " 不再独 
立，因而， X , 依赖于 过去的 Z 值。在下一节中，我们证明带反馈的高斯信道的逆定理，并且证 
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明，如果将X取为高斯的，能够达到容量(在书中并无对应的内容。一译者注)。 
下面针对有无反馈两种情况，给出信道容量的非正式描述。 

1. 带反馈。 对于带反馈的时变髙斯信道，其以比特/ 传输 为单位 的容量 c n ,^ 


I 

I K ( 7 n 


其中，最大值是在所有满足如下形式 


X , = S 以 + %, «• = 1，2, 


•» n 


(9-100) 网 


(9-101) 


的； T 1 的集合中取得的，上式中 P 与 Z" 相互独立。为了验证在式 (9-101) 上所取的最大 
值不失一般性，注意使熵达到最大的； T +2" 的分布是高斯的最大熵分布。由于 Z" 也是 
高斯的，所以，（X", Z 1 , + 是一个联合高斯分布且关于它的分布可达到式 (9-100) 
中的最大值。又由于 Z" = V" - X \ 那么由 Y 与V"导出的大多数一般联合正态分布就 
是式 (9-101), 其中V "起到了更改这个过程的作用用 X = iiZ + V * Y=X + 2 重新改 
写式 (9-100) 和式 (9-101), 我们可得 

^ 1 . \(B^l)K^(B^lY^K v \ ，…、 


C”. re = max^log il^o- 

其中 最大值 取自所有非负定矩阵 K v 以及满足 

tr(BK^B 1 + K V X nP 
的严格下三角矩阵不带反馈时， B 必定为0。 

2. 不带反馈。 不带反馈的时变高斯信道的容 ttC„ 为 


(9-102) 


(9-103) 


C n = 


: P 2n 


(9-104) 


这可以简化为 Kf 的特征值 Ui”M 上的注水过程。于是， 

c - = ^§ 1ob ( 1 + U " a ^ L ) (9 ' 105) 

其中(: y) + =maxl^, 01,且对 A 的选取满足 

1](A - A! n) ) + = nP (9-106) [282 

现在我们来证明带反馈高斯信道的容鲎的上界。这个上界实际上是可达的 [136], 因此就是 
信道容量，但是我们不在这里给出证明。 

定理 9.6.1 对于带反馈的高斯信道，使得 0 的任意 （ 2<, 幻码的码率尺„满足 

Q.fb + ^ (9-107) 

其中当 n—oo 时， 0, 其中 二別 在式 (9-100) 中定义。 

证 明：令 W 在2成上是均匀的，因此，误差概率汽” 》 满足费诺不等式， 

H(W I UO < 1 + nR„P { e n) = ne n (9-108) 

其中当0时， 0 o 此时，可以对码率界定如下： 

nR n =H(W) (9-109) 


= I(W 
<I(W 
<I(W 


W)-^H(W\W) 


(9-109) 

(9-110) 

(9-111) 

(9-112) 
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[ 283 ] 
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= S/(w ； y l |r- 1 ) + ^ n (9-ii3) 

= l ：( h ( Y i \ r - l )- h ( Y i \ W t Y i - l t X i , X i -\ Z i - l )) + ne n (9-114) 

= SU ( y,l Y ~ 1 )- hiZ.WV ne n (9-115) 

= l ：( h ( Y i \ Y i - l )- h ( Z i \ Z - l )) + ne n (9-116) 

= h ( Y n )- h ( Z n ) + ne n (9-117) 

其中 ( a ) 是由 x, 为 w 和过去的 y , 的函数以及 z 1 - 1 等于推出的， （b) 可由 y, = x f + z, 
和/ + 得到， （ c ) 是因为在给定 2 T 1 时，乙与（〜， r— 1 ， X 1 )是条件独立的。 

对上面不等式的两边同除《，再由正态分布使熵达到最大的性质，承接前面不等式链，可得 

^n<7 (/，(yW) ~ h( ^ Zn)) + e n (9-1 ⑻ 

+ (9 - n9) 

< c„. ra + e ； (9-120) 口 


我们已经证明了由协方差阵表达的带反馈的高斯信道容 tt 的一个上界。现在来推导 
由尺以和表达的带反馈的信道容 M 的上界，从而可以导出由不带反馈信道容 tt 的界估计。 
为记号简便起见，省去协方差阵符号中的上标”。 


首先证明有关矩阵和行列式的一系列引理。 

引理 9.6.1 设 X 和 Z 是 n 维随机向量•則 


K x *z + K x -z = 2K x + 2 K Z 

(9-121) 

证明： 


K x+Z = E(X + Z )( X^ZY 

= EXX * + EXZ 1 + EZX + EZZ * 

(9-122) 

(9-123) 

= K x + Kxz + 尺以 + 

(9-124) 

类似地， 


K x -z = K x - Kyz - ^zx + 

(9-125) 

将以上两个等式相加即可完成证明。 

□ 

引理 9.6.2 对于两个 nX ” 的非负定阵 A 和 B ， 如果 A - B 是非负定的，那么 

证明： $C=A-B 。 由于 B 和 C 是非负定的，可以将它们看作是协方差矩阵。考虑两个独 

立的正态分布 B) 和 X 广 A 〃 (0, C )。 令 Y = X, + X 2 , 则 


1 X 2 ) 

(9-126) 

= /2<X, 1 X 2 ) 

(9-127) 

=/*(X,) 

(9-128) 


其中的不等式是由于条件作用使微分熵减小这—事实，最后的等式 可由& 和 X 2 的相互独立性得 
到。将正态分布的微分熵计算公式代入上式中，我们得到 


^ log (27 re )" I A I 彡 jlog (27 te )” 丨 B 

这等价于欲证明的引理。 

引理 9.6.3 对两个 n 维随机向量 X 和 

IK X+Z K2"!K X + K Z I 


(9-129) 

□ 


(9-130) 
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证明： 由引理 9.6.1 知， 


2(K x +K z )-K x+2 = K x -z > 0 

其中记号表示 A 是非负定的。因此，利用引理9.6.2,我们有 

I K x+Z 1<1 2( K x + K z ) I = 2" I K x + K z I 

此即所欲证明的结论。 

引理 9.6.4 对两个任意非负定矩阵 A 与以及 0< A <1, 

I M + (1 - A)B 1>1 A I B l 1 ^ 

证明： 令 X 服从 〆 „(()， A >, Y 服从人 、(0, fl ), 令 Z 为如下形式的混合随机向量 

_ X 当沒=1 
Z= Y 当沒= 2 


其中 

1 概率为 A 

2 槪率为 1 -A 


假设 X , Y 及0独立，那么 


我们观察如 下不等 式系列 


K 2 = AA + (1 - X)B 


yln (27 rc )" I M + (1 - X)B I ^ h ( Z ) 


^ h(Z I 

= AA ( X ) + (1 - A )/ i ( Y ) 


(9-131) 

(9-132) 

□ 

(9-133) 
(9-134) 國 


(9-135) 

(9-136) 

(9-137) 

(9-138) 

(9-139) 


=yln(2ite)" I A l A I B l 1 ^ (9-140) 

其中第一个不等式由协方差约束条件下的高斯分布的 1 ft 大熵性质得出。这样就完成了证明。 □ 
定义称随机向 fftf 与 2" 是因果关系，如下面等式成立 

f{x\z n ) = /(z n )JT/(^ I *r i_1 ,z 卜 *) (9-141) 

• •I 

注意，反馈码必定导出因果关系 （ x \ r ) 0 
引理 9.6.5 如果； T 与 是因果关系，那么 

h(^ - ZT)>h(D (9-142) 


以及 

1 K x . z \>\ K z I (9-143) 

成立。其中 K x _ z 与 K z 分别是 Y - Z * 1 与 Z " 的协方差矩阵。 

证明： 首先观察下列系列不等式 

X 1 -* - Z 1 ' 1 ) (9-144) [286 

1 - 


多 2/ i ( X ,- Z ,| X , - , , Z , - 1 , X I ) (9-145) 

i*l 

= th ( Z ,\ (9-146) 

«•! 

( ^ th ( Z ,\ Z *- 1 ) (9-147) 

i=l 

^ h ( ZT ) (9-148) 



其中，等式 ( a ) 由链式法则 推出； （ b ) 由条件 推出； （ c ) 由 X , 的条件决定论 
以及微分摘的平移不变性 得出； （ d ) 由 X "与 2" 的因果关系 推出； 最后 （ e ) 再次由链式法则推出。 

最后，假设 X "与 Z " 是因果关系且伴随 X "- Z " 与 Z " 的协方差矩阵分别为与 K z ， 那么 
显然存在具有相同的协方差矩阵的多元正态（因果关系的）随机向童对 X ”与2"。于是，由式 
(9-148)，我们有 


-2"ln(27re) n I 


= h ( X n - Z ") 

^ h ( zr ) 


(9-149) 

(9-150) 


= yln (27 re) n I K z I (9-151) 

从而，式 (9-143〉 得证。 口 

我们现在从一个角度来证明反馈能够增强可加高斯非白噪声信道的信道容最至多半个比特。 
定理 9.6.2 


^ + "2 

证明： 结合所有的引理，我们有 


比特/传输 


n ^ 1 | 1 Ky 1 

^Yn XQ% TKT\ 

〆 1 . 2" I K x -f K z I 

\K Z \ 

1 \ K x ^ K z \ 1 

IK Z I + T 

< C B + y 比特 / 传输 . 

其中的不等式分别可由定理 9.6.1、 引理 9.6.3 和不带反馈的容量定义得到。 

我们现在证明平斯克 ( Pinsker ) 的观点，即反馈至多能使彩色噪声信道的容 B 加倍。 
定理 9.6.3 C niFB <2 C n 
证明： 只要能够证明如下不等式 

丄丄 ， I I ^ 1 , „ \ K X ^ K Z \ 

2 In 0 ^ I K z I ^2/i log I K z I 

就足够了，因为有了它之后，先对右边取 最大， 然后再对左边取最大就得到了 


(9-152) 


(9-153) 

(9-154) 

(9-155) 

(9-156) 

□ 


C n ,ra < C ” 


(9-157) 


(9-158) 


检验下列不等式 


K z I 


~2 K x*z + Y Kx ~ z 

VkT\ 


^A ,og 


(9-159) 


(9-160) 


(9 " 162) 

其中， （ a ) 由引理 9.6.1 推出； （ b ) 恰为引理 9.6.4 的不等式； （ c ) 由引理 9.6.5 在因果关系假设之 


(9-161) 


(9-162) 
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下推出。 匚1 _ 

总之，我们已经证明了当增加反馈之后，高斯信道容 M 的增加量不会超过半个比特，或者不 
会超出两倍。也就是说，反馈虽然有帮助，但并不很大。 

要点 

最大熵 maXfc X 2 * a ^( X ) = ylog 2 irca 3 
K 离斯傕道 y , = x , + z t% z . 〜 jV ( o , AO , 且满足功率限制^ 

， 71 i-i •.卜 

C = | log(l + ^) 比特 / 传输 (9-163) 

带宽有限的可加离斯白曝声倌道带宽为 W ， 双边功率进密度为 N 0 /2, 信号功率为 P ， 

C = Wlog ( l +^) 比特 /秒 （9-164) 

毳 

注水法 u 级并联离斯倌道> y> = x, + 々， J = 1,2•… •々， Z 广 mo ， N,h ^XKP ， 

(酬 

其中对 r 的选取满足 i：(t；-/V,r =nP 3 . v#”. 3 

可加离斯非白嗓声侑道 v .^ x . + z ,, z -^( o , k z ), 、 


c = i§i4 + ^) ( 9 刪 

其中 A 2 ，…， A „ 是的特征值，且对 I；的选取满足 S(x； - A,K = P。 

• ， * t 0 f I i mJ . k . k ^ y m i / y ^ < 3 /V C 、 ％ 


不带反懷容置 

C n : 

1 . 1 K x + K z 1 

(9-167) 


.^2 n log "l K z \ 

带反馈容置 

Q.ra 

1 , • Kx+z i 
l -^2 n log !' K Z ! 

(9-168) 

反馈界 


〔••fb ^ ^ 

(9469) 



C «, pb ^ 2 C n ^ 

(9-170) 
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习题 

9.1 在输出 y 上带两个独立观察的信道。 设在给定 X 下， A 和 y 2 条件独立且条件同分布。 

( a ) 证明 /( x ； y 1 , y 2 )= 2 /( x ； y 1 )-/( y ,； y 2 )o 

( b ) 推断信道 

X -- —— -(r,. y 2 ) 




的容量不超过信道 



的容童的两倍。 
9：2 双输出的高斯信道 




考虑在 x 上带两个相关观察的普通高斯信道，即 y =( y lf y 2 ), 其中 

Y x = X + Z x 

y 2 = x + z 2 

并且对 x 的功率限制为 p , 以及 ( a ,2 2 ) 〜 at 2 ( o ,/ o , 其中 

分别计算满足如下条件的容量 C 

( a ) p = l 

( b ) p = 0 

( c ) p = - 1 

9.3 输出功率约東。考虑期望输出功率约束条件 P 的可加高斯白噪声信道， BP , V = X + Z , 
Z - N (0,( T 2 ), Z 和 X 相互独立，并且 £ y 2 < P 。 求其信道容《。 

9.4 捎數嗥声信道。 Y - X . + Z ,, 其中是服从均值为 p 的 i . i . d . 噪声为指数分布。假设信号 

有一个平均约束（即 £ X ,< A )。 证明该信道的 容贵是 C = log(l + ^) 0 
9.5 衰退信道。考虑一个可加嗓声袞退信道 


(9-171) 

(9-172) 

(9-173) 
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Y = XV+Z 

其中 Z 是可加噪声， V 是表示袞退的随机变*，并且 Z 与 V 及 X 都相互独立。证明 /( X ; 
y | v )^/( x ； y ), 并讨论衰退因子 v 能够提高信道容 M 。 

并联信道与注水法。 考虑 一对并 联高斯 信道： 


其中 


Hd 


(9-174) 


(9-175) 


同时满足功率限制 + 假定当功率 P 为多大时，该信道的性质不 

再像一个噪声方差为 d 的单个信道，而开始像一对信道？ 

9.7 多路高斯信道。 考虑一个有功率约束 P 的可加高斯噪声信道，在该信道中，信号通过两条 
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不同的路径。在天线的一端接收到的信号是由两条路径上传输过来的噪声污染了的信号叠 
加而成的。 


Zi 



( a ) 当&与 Z 2 为联合正态分布，其协方差矩阵为 



求出该信道的容最。 

( b ) 对于0 = 0, = ^=-1 三种特殊情形，信道容馈分别是多少? 

9.8 并 联高斯信道。 考虑如下的并联高斯 信道： 


2^卵為、 
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其中与 z 2 〜 Y ( o , n 2 ) 是独立高斯随机变贵，而 y , = x , + 乙。我们希望将 
功率分配给两个并联信道。选取固定的 A 和 ft , 考虑全部代价的约束条件/?1^1 + 
p ， 其中是分配到第/个信道的功率而 A 是在该信道中单位功率的代价。于是，厂>0, 

P 2 ^0 的选取受到代价0的约束。 

( a ) /?取何值时信道停止单信道角色而开始起到双信道的作用？ 

( b > 估计信道容《，求出在 A = 〗， A = 2, N ，3, N 2 = 2 以及々=10是达到信道容最的 P 】 

和 P 2o 

9.9 向 量高斯 信道。考虑向量高斯噪声信道 V=X + Z , 其中 X = ( X 1 , X 2 , X 3 ), Z = ( Z ,, Z 2 , 
z 3 ), y =( y 1 , y , 2 , y 3 ),Ellxll 2 <尸，且 


z-N 

〖I 

0, 

「1 0 r 

0 1 1 




.1 1 2j 



求出信道容景。答案或许有点意外。 

9.10 照片胶片的信道容量。 这是一个顺手可得的具有漂亮答案的问题。我们感兴趣的是电影 
胶片的信道容量 3 胶片是由碘酸银晶体按照泊松 （ Poisson ) 分布组成，每平方英寸的 A 粒 
子密度函数已知。胶片感光不需要知道碘酸银粒子的位置 3 于是，当其感光后，接收者看 
到的只是曝光了的碘酸银粒子。附着在细胞上且暴露的颗粒假设落在或这或那而导致空 





168 


第 9 聿 


白出现。没有被感光的碘酸银粒子与空位置仍是空白。现在的问 题是： 这种胶片的信道 
容量是多少？ 

我们做如下的假设，在胶片的区域必 I 打上非常精细的格子将其划分成为许多细 
胞，假设每个细胞中至多一个碘酸银粒子并且不在细胞的边界上。于是，胶片可以看作 
是一系列具有交叉概率 1- AcM 的并联二元不对称信道。通过计算该二元不对称信道 
293] 的容量关于必的一阶近似(这是必要的近似)。我们可以计算出该胶片的信道容量(童纲 

为比特/平方英寸〉。显然，它与 A 成比例。问 题是： 该比例常数是多少？ 

如果照明器和接收器知道都知道晶体的位置，那么答案将是 A 比特/单位面积。 

9.11 高斯互信息。 假设 U , Z ) 是联合高斯分布且 X — Y — 2形成一个马尔可夫链，令 X 

和7的相关系数为川，而 Y 和 Z 有相关系数为内。求 I ( X ; Z)o 
9.12 时变信道。 一列火车匀速驶离火车站，接收到的信号能 M 随时间衰减为 l / i \ 在时间 f 接 
收到的总体信号为 

y, = |x t - + z, 

其中 Z 2 , …为服从; V (0, N ) 的 i . i . d ., 分组长度为 n 时的传送器约束为 
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利用费诺不等式，证明该信道容 tt 是0。 


9.13 


9.14 


反馈信道。令(7 1 ,2 2 卜川0,/0,尺=|^:1。分别求出在迹(功率)约束 tr ( K x )<2 F 情 

l P 1 J 

形下有与没有反馈的 +log 的掖大值。 

可加噪声信道。考虑信道 y=X + Z , 其中 X 是功率约束为 P 的发射信号，2：是独立可加 
噪声， Y 是接收到的信号，令 


0 槪率为 A 
z m 概率为& 


其中 Z •〜 N (0， N )。 因此， Z 有一个混合分布，即由髙斯分布与一个在0点概率密度为1 
的退化分布混合而成。 

( a ) 这个信道的容量是多少？这将是一个愉快的惊喜。 


( b ) 你怎样得到信道的容量？ 

9.15 离散输入，连续输出信道。令 Pr | X = l | = p,PrlX = Ol = l -/> W & Y=X + Z ， 其中2：是 
区间上的均匀分布，且 Z 与 X 相互独立。 

( a ) 计算 J ( X ； y ) = H ( X )- H ( X | Y)o 

( b ) 通过 ju ; y )=/ r ( y )-/ i ( y | x ) 来计» ux ； y ) 0 

( c ) 通过求关于的最大值来计算信道容量。 

9.16 脉冲功率。考虑可加高斯白噪声信道 


x , — © — K 
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其中乙〜 N (0， N )， 并且输入信号具有平均功率约束条件 P 。 

( a ) 假设在时刻1用所有的功率(即， EX ?=« P ， EX ? = 0, V ;=2,3, …，7?)。试求 

max - 

nr) n 

其中，最大值是在约束条件 £ X ?= t 2 P ， EX 2 = 0, / = 2,3,… ti 下遍历所有的分布/(?)。 H 95 

( b ) 求 max -/( X ^ jV "), 并且与 U ) 的结果作比较。 

/(/) ： E(iS ； .,X；)<P n 

9.17 时变均值的高斯信道。 求下列高斯信道的信道 容量： 



令2 2 ，…是相互独立的，并且令在 x”（W) 上的功率约束条件为 P, 分别求满足下列条 
件时的信道容 M: 

(a) 对所有的!•， /i, =0 o 

(b) //, = €* , i = l，2, …,假设传输者和接收者都知道外。 

(c) //,不确定，但对所有的 《•, 的为独立同分布且户,〜 N(0,N 丨） 0 

9.18 信道容量的参数形式 。考虑 m 个并联高斯信道= X, + 乙，其中 Z, 〜 N(0，A ,), 噪声 X, 

是相互独立的随机变最。因此， C = $ |log(l ^ Ur A| A —)> 其中选取 A 以满足 g U - 
W = P。 证明可以写为下面的形式 

P(A) = (A - A ( ) 

C(A) = Yj + lo 8 会 

这里 P(/0 是逐段线性，而 C(A) 是 A 的逐段取对数。 

9.19 鲁棒译码。考虑一个可加噪声信道，它的输出 y 为 + 其中信道输人 x 有平均功 

率约束条件 £X 2 <P, 并且噪声过程 lz*ir=-CO 是独立同分布序列且具有功率 N 的边际分 [1 M 
布办 (2)( 不必是高斯分布）， 

EZ 2 = N 

(a) 证明信道容量 C = max£x^JU ; VO 的下界 C G 满足 Q； = |k)g( 1 +务)。 

(b) 如果噪声是非高斯的，就按照在欧几里得距离意义下最接近该向量的码字，将接收到 
的向贵解码成码字一般来讲是次优解。但是，即使严格遵守最邻近译码（即最小欧几 
里得距离译码），码率 C c 也是可达的，而最优最大似然译码或者联合典型译码(关于 
真实的噪声分布)则不然。 

(c) 扩展结果到下列条件：噪声不是独立同分布的，但关于功率 N 是平稳且遍历的。 

(关于 ( b) 与 （c) 的 提示： 考虑大小为2必的随机码簿。其中的码字是相互独立的，并且 
服从半径为#的 n 维球上的均匀分布。） 

(a) 用对称方法，证明噪声向量经过条件作用后，其平均误差概率仅通过它的欧几里得范 
数II z II间接依赖于噪声向董。 
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的意义下，并不会影响对噪声的恢复。什么样的尺有这种可能？ 

历史回顾 

对高斯信道的分析首先是香农在原创性论文 [472] 中给出的。针对高斯彩色噪声信道的容 M 
的注水解是香农在 [480] 中发展出来的，而精细化的处理则是平斯克给出的[425]。模拟高斯信 
道的处理是 Wyner 在 [576], Gallager 在 [233] ,以及 Landau , Poliak 与 Slepian 分别在[340, 341, 
500] 给出的。 

平斯克 [421] 与 Ebert [178] 讨论了反馈至多能够使得高斯非白信道的容董 翻倍； 而本文中 
的证明过程来自于 Cover 与 Pomb ra [136], 他们也证明了反馈至多能够使得高斯非白信道的容童 
提高半个比特。关于高斯非白噪声信道的最新反馈容童结果当漓 Kim [314]。 
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第 10 章率失真理论 



描述一个任意的实数一般需要无穷比特，因此，对连续随机变 tt 的有限表示永远不可能完 
美。问题在于我们到底可以做得多好？为了给这个问题清晰的构架，首先给出关于信源表示的 
“优良程度”的定义。为此，引人失真度量的槪念。失真度最是指随机变最和它的表示之间的距 
离的度量。因此，率失真理论的基本问®可以归结 如下： 对于一个给定的信源分布与失真度量， 
在特定的码率下，可达到的最小期望失真是多少？或者等价地说，为满足一定的失真限制，最小 
描述码率可以是多少？ 

正如将大象与小鸡放在一起描述比单独描述它们更有效率，率失真理论一个诱人的方面在 
于联合描述比单个描述更为有效。这种观点甚至适用于独立随机变«的情形。比如，对&和 
x 2 进行联合描述(在各自给定的失真度 敏下） 比逐个描述更为简单。为什么独立的问题没有独立 
的答案呢？从几何中可以得到答案。显然矩形网格点（源自独立的描述）并不能够有效地装填整 
个空间。 

率失真理论不仅适用于连续随机变也适用于离散随机变 M 。 第5彔的零误差数据压缩 
理论是率失真理论可以应用于离敗信源的一个重要例子，此时率失真为零。下面首先考虑一种 
简单情形，即用有限的比特数表示单个的连续随机变馕。 

10.1 置化 

本节我们会看到，销确地解决单个随机 变徼的 请化问题相当复杂，这激励我们完善率失真理 
论。由于一个连续的随机信源笫要无限的精确度才可准确地表示。因此，不可能通过一个码率 
有限的编码使之梢确地再生。我们需要解决的问题是对于任何给定的数据码率，寻求最好的可 
能表示。 

首先考虑信源中单个样本的表示问题。设 x 是表示的随机变 M , 记 x 的表示为又（ X )。如 
果使用 K 比特表示 X ,则函数欠可以有 2 R 个取值。要寻找 X 的最优取值（称作再生点 
(reproductiou point ) 或者码点 (code point )) 集合以及每个取值所对应的原像区域 o 

例如，设 x 〜 假定失真度 M 为平方误差。则要寻找不超过 2 K 个取值的函数 
又(；0,使 £( X - 欠（ X )) 2 最小。如果仅给定丨比特表示 X ,显然，必须能够用这一比特来将 
X >0 与否区分开来。为使平方误差达到最小，函数 X ( x ) 应该取其所在区域上 X 的条件均值， 
如图 10-1 所示。于是， 

当 o ： 彡0 

XU)=< 71 ( 10 - 1 ) 

当 I <0 

当用2比特表示这个样本时，问题就并不这么简单了。显然，需要把实轴分成四个区域，并 
选取每个区域上的一个点表示样本。但是这些表示区域应该如何划分，以及再生点应该怎样选 
取？要解决这些问题却并不明显。然而，对于单个随机变量的量化问题，我们可以断言最优的区 
域划分以及再生点有以下两个简单的 性质： 
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• 当再生点集合给定时，可通过将信源随机变量 X 映射为再生点集中最接近于它 
的表示欠 （ ui ), 使失真最小化。于是，该映射定义一个 Y 的区域构成的集合，称为由再生 
点定义的 Vorowo : 划分或狄利克需划分 （Dirichlet partition ) 0 
• 再生点应该在各自划分到的区域上使条件期望失真最小化。 

这两个性质使我们能够构造出获得“好”的擀化器的一种简单 算法： 从某个再生点集合开始， 
找到最优的再生区域集(在失真度 《 F 的最邻近的区域），然后再确定出这些区域的相应 逬 优再 
生点(如果失真度 ft 是平方误差，则再生点即是这些区域的质心）。如此继续对这个新的再生点 
集合重复以上迭代过程。在箅法的每一步中，期望失真是逐步递减的，因此，箅法将收敛于失真 
的一个局部极小值。该算法称为 Lloyd 算法 [363] (针对实值随机变贵）或 推广的 Lloyd 算法 
[358] (针对向黹值随机变是设计童化系统的常用算法。 

如果要 M 化的并非是单个随机变 ffi , 而是服从高斯分布的 n 个独立同分布的随机变撤集合， 
用 ni ? 比特表示它们。由于信源是独立同分布的，于是信源符也是独立的。因此，假如分开处理 
的话，每个元索的表示都显得像是一个独立的 问题。 然而，随后的率失真理论的结果将表明这是 
不对的。我们将用取2#个值的一个下标表示整个序列。在相同的码率下，这种对整个序列同时 
处理的方法比对于单个样本独立量化所得的失真更低。 

10.2 定义 

假设某信源产生序列 Xp X 2 , …， X n , 是 i . i.d •〜/ >(:), 在本章的证明中，假设字 

母表是有限的，但大多数离散情形下的证明都可以推广到连续的随机变竜。信源序列 V 的编码 

用 下标人 （ r ) d ，2, …，2叫表示， X "的译码用估计 形式父表示， 如图 10-2 所示。 




" mu , 



编码器 


译码器 


图 10-2 率失真编码器与译码器 


定义失真函数 (distortion function ) 或者失真度量 (distortion measure ) 指从信源字母表与再生 

字母表的乘积空间到非负实数集上的映射 00-2) 
失真是用来刻画使用 i 表示: r 时的代价度童。 
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定义称失真度量是有界的，如果失真的最大值有限: 


(10-3) 


(10-4) 


在大多数情形下，再生字母表 Y 和信源字母表 Y 是相同的。 

常用的失真函数的例子有 
• 汉明（误差概率）失真 3 汉明失真定义为 

dU ， i>= l? (10 - 4) 

由于 Ed ( X ， 幻 = Pr ( X 关又），上述定义导出一个误差槪率失真。 

• 平方误差失真。平方误差失真 

d ( x 9 i ) = (x - i ) 2 (10-5) 

是连续字母表最常用的失真度其优点在于简单，且与最小二乘法联系紧密。但在某 
些应用中，例如图像编码和语音编码，许多作者指出，从人的观测角度看来，均方误差并 
非是恰当的失真度量。例如，语音波形与同一波形的另一版在小的时间差异下将会有很 
大的平方误差失真，即使对于同一个观察者来讲，这两个声音听起来是一样的。 

有许多替代的方案已经被提出。在语音编码中常用的一种失真度撤为 Itakura - Saito 距离， 
它是多元正态随机过程之间的相对熵。然而，在图像编码中，到目前为止还没有真正找到一种好 
的失真度墩去替代均方误差度 a 。 

失真度*概念是定义在宇符 X 字符上的。下面我们把这个定义推广到下面的序列上去。 
定义？与 i ” 序列间的失真定义为 


. i ") = 


( 10 - 6 ) 


因此，一个序列的失真是序列中每个分撒失真的平均值。这并非是惟一合理的定义。例如， 
可以将两个序列间的失真度贵定义为每字符失真的 fi 大值。下面所获得的理论并非直接适用于 
更一般情形的失真度 S 。 

定义一个(2"\幻芈 失真码 (rate distortion code ) 包括一个编码函数 


/”:於-|1，2,“.，2说| 


和一个译码(再生）函数 


圍 仏 ： | 1 ， 2,”.,2 叫一； 

关于这个 (2#, W ) 码的失真定义为 

D = Ed(X",^(/ B (X"))) 

其中所取的期望是针对 X 的概率分布而 言的： 

D = ^p(x n )d(x\g n (f n (x n ))) 


(10-7) 


( 10 - 8 ) 


(10-9) 


( 10 - 10 ) 


将” 元组仏 （1), 仏（2)，…，心（2戒）记为欠”（1),妒 （2) ，…， 父”（2必），它构成一个码簿，且 
/； 1 (2), /:1(2成)为相应的分 釔区域 (assignment region)o 

有多种术语可以用来表达这种 M 化形式父”（议)来替代 X %常见的有； T 的向量量化、再生、 
重构、 表示、 信源编 码以及估计。 

定义称率失真对（尺， D ) 是可达的，若存在一个（2#,;1)率失真码序列 （ A ， g „)， 满足 
lim—EcKX^J/^X^XD 。 . 

定义全体可达率失真对 （ R ， D ) 所成的集合闭包称为信源的率失真区域。 
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定义对于给定的失真 D ， 满足 （ R ， D ) 包含于信源的率失真区域中的所有码率 R 的下确界 
称为率失真函數 （rate distortion function ) R ( D ) 0 

定义对于给定的码率尺，满足（尺， D ) 包含于信源的率失真区域中的所有失真 D 的下确界 
称为失真牟函数 ( distortion rate function ) D ( R ) 。 

失真率函数给出了另一种观察率失真区域的边界的方法。尽管两种描述方法是等价的，但 
是，习惯上通常用率失真函数而不是用失真率函数来描述其边界。 

现在定义关于信源的一个数学函数，称为信息牟失真函数。本章的主要结果是证明信息率 
失真函数与上述定义的率失真函数是等价的，即可达某一特定失真的所有码率的下确界。 _ 

定义设信源 X 的失真度量为定义其信息牟失真函数 R (/) ( D ) 为 

R U ) ( D ) = min I ( X ; X ) (10-11) 

pix x)i p(x)p(ilx)rf(-r.xXD 

其中的最小值取自使联合分布 /> Ujr ) = p (： r ) pTi ： U ) 满足期望失真限制的所有条件分布 MiU)o 
与第7章中对信道容 M 的讨论类似，先考虑信息率失真函数的性质，并对一些简单信源与失 
真度鼂，计算它们的信息率失真函数。然后证明，这个函数是可以达到的，即存在一个失真 D 而 
码率为尺 U ) ( D ) 的编码。 

下面给出的是率失真理论的一个主要定理： • 

定理 10.2. 1对于独立同分布的信源 X ,若公共分布为 p ( x 〉 且失真函数有界，那 
么其率失真函數与对应的信息牟失真函数相等 3 于是， 

K ( D ) = R U \ D ) = min /( X ; X ) (10-12) 

^ p{x)p{x\j)d{x.x)^D 

为在失真 D 下的最小可达码率。 

该定理表明率失真函数的可操作性定义与信息方式的定义是等价的。因此，从现在开始，对 
这两个率失真函数不加区分，都用 i ?( D ) 表示。在证明定理前，先对一些简单的信源与失真度 
撤， 计算它们的信息率失 S 函数。 

10.3 率失真函数的计算 

10.3.1 二 元倌源 

下面计算在期望误差失真小于或等于 D 下，描述 Bernoullip ) 信源所需的码率 R ( D ) 0 
定理 10.3.1 Bern ⑽仏 •（/>) 信源在汉明失真度量下的车失真函數为 

R(D)= | H (/>)- H ( D )，0< D < min | p ,!-/>! (10 _ 13) _ 

•0, D > minlp,l - pi 

证明： 考虑在汉明失真度量下的二元信源 X 〜 Bemoulli ( p )。 不失一般性，假定 p < l /2。 计 
算率失真函数 

R ( D ) = min . (10-14) 

p{x x): ^ p(x)^(iix)rf(x,xKD 

用 ㊉ 2 表示模 2 加法运算，则 X ® 2 义 =1 等 iix 关我们无法直接最小化 J ( X ; 父），而是先 
获得率失真函数的一个下界，然后证明这个下界是可达的。对于任何一个满足失真限制的联合 
分布，我们有 


1( X ; X ) = H ( X ) - H(X 1 X ) 

(10-15) 

= h ( p ) - mx ㊉ x 1 幻 

(10-16) 

彡 ㊉ X ) 

(10-17) 

^ H ( p )- H ( D ) 

(10-18) 
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由于 Pr ( X 关欠且 H ( D ) 在 D < l /2 时是单增的。于是， 

R ( D ) ^ H ( p )- H ( D ) (10-19) 

我们下面说明，若能找到一个满足失真限制且有 /( X ; X ) = R ( D ) 的联合分布，则这个下界 
实际上是率失真函数。由于选取 ( X , X ) 使其联合分布满足如图 10-3 所示的二元对称 
信道，则可以达到式 (10-19) 中的率失真函数值。 


\m 



我们选取在信道输入处欠的分布，使输出分布 X 服从图 10-3 中指定的分布。令『=阡(欠 = 1), 
并且对 r 的选取满足 

r(l - D ) + (1 - r)D = /> (10-20) 

或 

r = 00 - 21 ) 


309 


若 则 Pr(X = l )>0, 且 Pr ( X =0) X )。 于是我们有 

l ( XiX ) = H ( X )- H(X I X ) = H ( p )- H ( D ) (10-22) 


且期望失真为 Pr ( X 关 X ) = D 。 

若 D > p ， 则可通过令欠 =0 的概率为 1 而达到码率 K ( D > = 0。 此时， I ( X ; X )=0 t 且期望 
失真为 D =/>。 同样地， 若 则可通过令又=1的概率为1而达到码率 K ( D )=0。 因 
此，二元信源的率失真函数为 

R ( D ) = 

其函数图像如图 10-4 所示。 □ 


\ H ( p ) - H ( D ), 0< D < minl/>,l - p \ 
'0, D > mintp,l - p \ 


(10-23) 



以上的计算似乎并无完整合理的动机，最小化互信息为什么和量化有关系？这个问题必须 


等到定理 10.2.1 的证明以后才能给以回答。 
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10.3.2 高斯倍源 

尽管定理 10.2.1 仅对具有有界失真测度的离散信源给出了证明，但它的方法珂以推广到对 
于具有良好行为的连续型信源以及无界失真测度。假定该一般性定理成立，那么，在平方误差失 
真度量下来计算髙斯信源的率失真函数。 

定理 10.3.2 —个 A ^0,( T 2 ) 信源在平方误差失真度量下的率失真函数为 

細） (10 .24) 

^0, D > a 2 

证明： 设 X 〜 Y (0,( j 2 ), 由推广到连续型字母表情形的率失真定理，我们有 

R ( D ) = min j I ( X ; X ) (10-25) 

与前面的例子类似，首先获得率失真函二个<下界，然后证明这个下界是可达的。由于 
E ( X - X ) 2 < D 9 我们有 

I ( X ； X ) = h ( X ) - h(X I X ) (10-26) 

= - j \ og (2 ne ) a 2 - / i(X - X I X ) (10-27) 

^^\ cg (2 ne ) a 2 - h(X - X ) (10-28) 

> ^ log (2^) a 2 - h (_， E ( X - X ) 2 )) (10-29) 

= ^-\ c %(2 ne ) a 2 - ylog (27 r^)£(X - X ) 2 (10-30) 

^ ^\ og (2 ne ) a 2 - -^- log (27 r^)D (10-31) 

=(10-32) _ 

其中式 （10:28) 是由于加人条件使墒减小的亊实，式 （10-29) 是由于在给定二阶矩下，正态分布使 
熵最大化(定理8.6.5)。因此， 

R ( D )>\\ og ^ (10-33) 

为了求得达到这个下界时的条件密度 /( ilx ), 通常更为简便的办法是着眼考虑条件密度函数 
对此，有时称作测 试信道 (邮 也 为了强调率失真与信道容最的对偶性)。如在二元 
信源情形中一样，构造使等号成立的 /( xli ) o 选取如图 10-5 所示的联合分布。如果 D <(7 2 , 取 

X = X + z，k ~ mu - D、，Z 〜 mQ . D ) (10-34) 

其中 X 与 Z 独立。对于该联合分布，计算可得 

/( X ; X ) = 士 log 笔 (10-35) 

以及 £( X - 又 ) 2 = D ， 于是这个联合分布可以达到 
式 (10-33) 中的下界。若0>0 2 ,以概率1选取欠= 

0,则由此 可得尺 （ D )=0。 因此，髙斯信源在平方误 图 10-5 高斯信源的联合分布 

差失真下的率失真函数为 

R ( D )=\ 2 ^ i ' ° <D<ff2 (10-36) 

0, D > a 2 





其函数图像如图 10-6 所示。 


□ 



图 10-6 髙斯信涿的率失真函数 


我们可将式 (10-36) 改写为用码率来表示失真的表达式， 

D ( R ) = o 2 2 ~ 2R (10-37) 

此式表明描述每增加1比特将导致期望失真 以+倍 减小。当描述使用1比特时，最佳的期望平方 
误差为 < t 2 /4。 将此与 10.1 节中使用1比特 tt 化随机变* Y (0 w 2 ) 这个简单结果作个比较。用两 
个表示区域分别为正负实轴，再生点为各自表示区域的质心，期望失真为(参 
看习题10.1)。我们后面会证明，编码时如果考虑足够的分组长度，率失真限度 K ( D ) 是可达的。 
这个例子表明，如果将几个失真问题连在一起考虑(具有足够的分组长 度〉， 则可获得比单个分开 
来考虑时更低的失真。这多少令人有点惊讶，因为我们 ft 化的是独立的随机变 
10.3.3 独立*斯随机变置的同步描述 ^ 

本小节考虑 m 个独立(但服从不同的分布）的正态随机信源；^，…， JVm 的表示问题，其中 
足是〜 为平方误差失真。假设用 R 比特来表示这个随机向撖。自然有这样一个问 
题： 如何分配这些比特到各成员，才能使总失真最小？将信息率失真函数的定义推广到向敏情 
形，我们有 


其中 d ( x m t i m ) = 


R(D) = min I(X m ;X m ) 

(10-38) 

/(i*ix*)!liKX".X*)<D 


Ju - i ,) 2 。 由前面例子的讨论，我们有 

f B 1 


/(X 7 "；^) = W〉- 1 X m ) 

(10-39) 

=£/ i ( X ,. 1 fW ) 

(10-40) 

fit m 


> X>(x.) - i X,) 

i*i 

(10-41) 

= iux.iK) 

»*i 

(10-42) 


(10-43) 

= SOD 

(10-44) 
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其中 D ,. = E ( X , - X ,) 2 以及式 (10-41) 是因为加入条件使熵减小。式(10-41)与式 (10-43) 中的等 
号可由前面例子类似地选取 /( a ^ I = n ^/ U 丨 i ,) 和分别选取分布父 ，•〜 AT (0,4 - D ,-〉 

得到。因此，求解率失真函数问题可简化为^下的最优化问题（为了简便起见，使用奈特为单 
位)： 

尺 ( D ) = min 

Sd. ， d ‘ =1 

用拉格朗日乘子法，我们建立函数 

J ( D )= S { ln ： 

同时关于 D , 求偏导数，并令其等于0,我们有 


1 士 h §’ 0 

(10-45) 

+ 

#•1 

(10-46) 

A = 0 

(10-47) 


(10-48) 


或 


因此，对于各种描述的最佳比特分配方案是让各个随机变虽具有相等的失真。如果对所有的 
£，式 (10-48) 中常里 A ' 都比 d 小，要达到这一目标是可能的。当总的可容许的失真 D 增大时， 
常 ft A ' 也随之增大，直到对某个 A , 超过了 d 。 此时，式 （10-48) 的解处于可容许的失真区域的边 
界上。若继续增加总的失真，必须运用库恩•塔克条件求解式 （10-46) 中的最小值。此时，由 
库恩-塔克条件可导出 

’士 + A (10-49) 


彔 = 一 


其中 A 的选取满足 


il 

ao f 


(10-50) 


= 0 如果 D , < d 
.<0 如果 

容易验证，库恩-塔克方程组的解可由下面的定理 给出： 

定理 10.3.3( 并联高斯信源的牟失真）设 X, 〜 AT(0,CX?)U = 1,2, …， m) 为独立的高斯随 

机变量，假定失真度量为 = Ef =1 U • 一夂) 2 ,則率失真函数为 

(10-51) 


R(D)= §+ log A 


其中 


D, = 


(10-52) 


A 如果 A < d 
Wi 如果 

其中对 A 的选取滿足公 D , == D 。 

这引出了如图 1(^7 所示的一种反注水法。选定一个常 ft 只描述方差比 A 大的随机变童， 

而方差比 A 小的随机变量不用比特描述。总之，如果 

r ? — 0 


X〜 M 


0, 


0 




成立，那么 


313 


314 
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M …0 丫 
•: ••• ； 

-0 

成立，且£：(\-足) 2 = 0,，其中 D , = minU ，4 l 。 更一般地，多元正态向量的率失真函数可利用 
反注水法并依据协方差阵的特征值得到。也可以对高斯随机过程进行相同的讨论。由谱表示定 
理，高斯随机过程可由在多个频带1：的独立高斯过程的积分表示。将反注水法应用于频谱，可以 
得到率失真函数。 




°; 





o \ 



















, 




D ' 







Oy 

Os 


• V 2 

V , 


A 



图 10-7 独立斯随机变撖的反注水法 

10.4 率失真定理的逆定理 
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本节证明，如果用小于 R ( D ) 的码率描述 X ，则不能达到比 D 小的失真，由此来证明定理 
10.2.1 中的逆命题，其中 

R(D) = min I(X;X) (10-53) 

上述最小值取自所有使联合分布 = 满足期望失真限制的条件分布 p ( i \ x ) 0 

在证明逆定理之前，首先给出有关信息率失真函数的一些简单性质。 

引理 10.4. Ui ?( D ) 的凸性）由式 （10-53) 给出的率失真函数 K ( D ) 是关于 D 的非增凸 

函数。 

证明： 由于当 D 增大时， /?( D ) 是随之增大的集合上的互信息的最小值，因此，尺 （ D ) 关于 
D 非增。为证明 K ( D ) 是凸的，考虑率失真曲线上的两个率失真对(尺 | ，1； 1 )与（只 2 ,0 2 )。记达到 
这两个率失真对的联合分布为 p l ( x 9 i ) = p ( x ) p i ( i \ x)m p 2 U / x )^ p { x ) p 2 ( i \ x)o 考虑分 
布 p x = Xp ^( l - X ) p 2o 由于失真是关于分布的线性函数，则我们有 D (/> a ) = AD ，（1 + A ) D 2 。 


另一方面，互信息为条件分布的凸函数(定理2.7.4)，于是 

I ^( X ; X ) ^ Xl pl ( X ; X ) ^ - X ) I p 2 ( X ; X ) (10-54) 

因此，由率失真函数的定义， 

尺 （ A )< (10-55) 

< A / pl ( X ; X ) + (1 - X ) l p 2 { X ; X ) (10-56) 

= kR ( D } ) + (1 - X ) R ( D 2 ) (10-57) 

这证明了 R ( D ) 为 D 的凸函数 3 □ 

现在，已做好了对逆定理证明的准备。 
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证明 （定理 10.2.1 中的逆定 理）： 对于失真度量 d (: r ， i )， 且 i . i . d . 服从 p ( ar ) 的任何信源 X , 

以及失真的任何一个 (2#， n ) 率失真码，我们需要证明该编码的码率必定满足 R ^ R ( D ) 0 
事实上，要证明尺对于随机化 映射人 与仏，两者长度相同不超过2#个取值。 

考虑由式 （10-7) 和式 （10-8) 给出的函数/„ 和& 定义的某个 （2#, rO 率失真码。设又"= 
力（^°)=仏(/„(；^))为相应于； T 的再生序列，对于此码字，假设 Ed ( UJ 彡 D , 则我们有 (M 
下面的不等 式串： 



(10-58) 

^H(/ W (X")) - H(/„(X") 1 X") 

(10-59) 

= /(X";/„(X")) 

(10-60) 

%IOC ； k n ) 

(10-61) 

=mx") - mx" i x n ) 

(10-62) 

= Sh(x,)-h(x- i X") 

<•1 

(10-63) 

= Sh(x,)- Smx, i fr’XH ，…， xo 

••1 蒙禱 1 

(10-64) 

^Ewx,)- Ewx, i X) 

(10-65) 

= iuxM 

j-i 

(10-66) 

%^R(Ed(X lt X,)) 

i^i 

(10-67) 

=n(^ER(£y(X, ， X))) 

(10-68) 

%nR(^^Ed(XiX)) 

(10-69) 

甾 W(£cf(X" ， 欠 ”）） 

(10-70) 

^nR(D) 

(10-71) 


其中 

( a ) 基于亊实：人的值域最多是2$, 

.( b ) 基于 事实： H (/”( X ”） IX ") X ), 

( c ) 基于数据处理不等式， 

( d ) 基于 X ,•的相互独立性， 

( e ) 基于熵的链式法则， 

( f ) 基于 事实： 加人条件总能使熵减小， 

( g ) 基于率失真函数的定义， 

( h ) 基于率失真函数的凸性(引理10.4.〗）及 Jensen 不等式， 

(0 基于分组长度为71的失真函数的定义， 

0) 基于 事实： R ( D ) 关于 D 是非增函数以及 £^( X „, XJ < D 。 

这说明了任意率失真码的码率尺比在失真水平 D = 父”）下计算出的率失真函数 

靡)要大。 □ 

类似的讨论方法也可以应用到被编码的信源是从有噪声的信道传输过来的情形，从而可以得 




到一个等价于带失真的信源信道分离 定理： 

定理 10.4.1( 带失真的信源信道分离定理）令 V 2 ，…， 为有限个独立同分布字母 
表的信源，编码为容量 C 的离散无记忆信道中的 rz 个输入字符序列； T 。 而信道的输出 Y " 映射为 

重构字母表 V " = g ( V") D $D = Ed (\ r t \ r ) = 丄公%， V ,)为由该组合信源与信道编码 

n i-i 

方案构成的平均失真。该失真 D 可达当且仅当 C > R ( D ) 成立。 



证明： 见习题10.17。 □ 

10.5 率失真函数的可达性 


下面证明率失真函数的可达性。首先考虑联合 AEP 的修正情形，在给定失真度 tt 下，增加 
条件为考虑的序列对是典型的。 

定义设 〆 x , i ) 为 Axi 上的一个联合槪率分布，是 ATx / 上的失真度对任意 
€>0,称序列对是失真 e 典型的，或简称失真典型的 （distortion typical ) ,如果 


|- 士 iogpu")-mx) 

< € 

(10-72) 


< e 

(10-73) 

\ogp(x\i n )- H(X 9 X) 

< c 

(10-74) 

1 d(x\i n ) - Ed(X ， X) \ 

< e 

(10-75) 


由所有失真典型序列构成的集合称为失真典型集，记为 

注意，这是存在附加限制条件即失真接近期望值时的联合典型集 （7.6 节）的定义。因此，失 
真典型集是联合典型集的子集 ， BP A ^ lCZA ^ o 若为 i . i . d . 的且〜 />(: r ， i ), 则两个随 
机序列间的失真 

dOC ^ n ) = (1( V 76) 

n i-l 

为这些独立同分布随机变量的平均，由大数定律可知，它将以极大的概率趋于它的期望值。因 
此，我们有下面的引理。 

引理 10.5.1 设 （ X ,， X ,) 为独立同分布的序列且 〜〆 文，士），那么当 n — ⑺时 • PKAS 1 ：])—lo 
证明： 由于定义 A 以中的4个条件求和具有 i . i . d . 随机变量的标准化的求和形式，因此由大 
数定律，这些求和值均将以槪率1收敛于它们各自的期望值。于是，当时，满足4个条件 
的所有序列构成的集合的概率将趋于1。 □ 

下面的引理是失真典型集定义的直接结果。 

引理 10.5.2 对任意八以， 

pCx n I x ")2-" (,(XiX)+3e) (10-77) 

证 明：由 的定义，可以对任意的 U ”, i n )€ 的槪率值 pU ”）， p ( i ") 与做 

出界估计，即有 



P(x\i n ) 

pU n ) 


(10-78) 
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= p(i l 


p ( x n ) pCx n 


(10-79) 


《 夕 (了” 2 r "( H ( X ) + c )2-«( H ( J ?)+«) Viu - ow / 

= p ( i ”)2” u(x ;” +3e> (10-81) 

由此可知引理成立。 □ 

我们还需要如下这个很有意思的不等式。 

引理 10.5.3 对 0<* r , ： y < l , / i >0, 

{\- xy ) n ^\- x ^ e ^ (10-82) 

证明： 设 /(： y ) = e”-l + ： y , 则有/(0)=0,并且当: y >0 时， f ( y )= 一 e _>+ l >0, 因此， 
当 y >0, 可得 f ( y )>0 o 于是，对 0<： y < l , 我们有1-: y < 八' 并在该式两边同时取 n 次幂， 
可得 

( i - y ) n < e '^ (10-83) 

于是，当 * r = l 时，引理成立。由检验玎知，当 : r = 0 时，不等式也是成立的。通过求导容易看 
出，仏(^:) = (1-*00"是 J * 的凸函数，因此，对 0< jrd ， 有 

( l-xyr = g y ( x ) (10-84) 

<( l - x ) g y (0) + ^ y ( l ) (10-85) 

= (1 - x )\ + x(l - y) n (10-86) 

<1 - x + (10-87) 

< 1 - x + (10-88 )D 

由此来证明定理 10.2.1 中的可达性。 

证明 （定理 10.2.1 中的可达 性）： 设 X ,, X 2 , …，〜 p ( x) t 该佶源的失真度敢 
有界。记该信源的率失真函数为尺 （ D ), 那么对任意的 D 以及仟意的 /?> K ( D ), 我们通 
过证明具有码串 K 和渐近失的率失 真硏序 列的存在性，以说明宇失真对（尺, D ) 娃可达的。 
选定 〆 i 丨了），使 〆 i I : r ) 满足式 （10-53) 的等号成立。于是， 1( X ; X ) = R ( D ) 0 计算 p ( x ) = 

选取 ^>0 o 我们证明码率为尺且失真小于等于 D + S 的率失真码的存在性。 

码簿的生成 c 随机生成由2成个 i . i.d •〜 作/^^^的序列:^组成的率失真码簿。。为这些码 

<■通 

字做 下标加 € 11，2,…，2也|,并将该码簿告知于编码器与译码器。 

编码。若存在一个 it ； 使（：^，欠”（切））6焱；^(即失真典咽集），则将；^编码为加。如果这样 
的 u ； 不是惟一的，则选取最小的一个。若不存在这样的 u ，， 则令 u ，= 1。于是”尺比特足以描述 
联合典型码字的下标比。 

译码。 再生序列即为父” （ u 0。 

失真计算。 正如信道编码定理情形，我们计算在所有随机选取的码簿 ^ 上的期望失真为 

D = Ex -. c ^( X ", X n ) (10-89) 

其中所取的期望是针对码簿的随机选取和 X "而言的。 

对于选定的码簿 C 与£>0,将所有序列/分为 两类： 

• 存在一个码字又穴!!；)与序列/是失真典型，即 d (* r "， i "( a>))<D + e 。 由于这些序列的 
总概率至多为1，故这些序列对期望失真的贡献不会超过 D + e 。 

• 不存在上述要求的码字 X ”（ u ;) 的序列 X ”。记 P , 为所有这样的序列的总概率。由于任何 
单个序列的上界为故这些序列对期望失真的贡献不会超过 H 


(10-80) 


320 




184 


第 JO 聿 


321 


322 


因此，我们可将总失真定界如下 

Ed ( X n ^ n OC t ))< D + e + P e d ^ (10-90) 

若尸 ，足够小，则当适当选取 e 后能使上式左边小于 D + 夂因此，若能证明 R 是很小的，则期望 
失真就可接近 D , 定理就得到了证明。 

厂的 计算。对于随机选取的码簿^和随机选取的信源序列，要估计不存在与该信源序列失真 
典型的码字的概率的界。记 J ( C ) 为满足 C 中至少存在一个码字与: r ” 是失真典型的序列: r ” 全体 
构成的集合。于是 


P , = HC ) S p ( x n ) (10-91) 

这是没有被一个编码很好地表示的所有序列的概率，其均值取自所有随机选取的码。改变求和 
顺序，也可以将其解释为选取的码簿不能很好表示序列/的概率，此时，取均值是相对于/ >(/) 
而言的，即 - 


我们定义 


p e = Dp(x-) S p( c ) 

/ C ： x ^ ； ( C ) 

、 —（1 如果 Ad 
^ n) " to 如果 


(10-92) 


(10-93) 


于是，单个随机选取的码宇 X ” 不能很好地表示某选定的/的概率为 

Pr (( x \ X n )t A ( d ：\) = PKfCU ”， 义”） = 0) = 1- ^ p ( i n ) K ( x \ i n ) (10-94) 

• • 

所以，独立选取的2#个码字不能很好表示 x ” 的概率，关于 />(/) 取平均，得到 

P e = E />( X ”） X P ( C ) (10-95) 

/ C./inC) 

= E />( o：”）[l - 00-96) 

我们现在应用引理 10.5.2 来估计中 g 号里的和式的界。由引理10.5.2,珂得 


Y t pCx n )K(x\i n )>^P^x n I x")2-" <,(x ^ H3,> K(x",i") 

•9 i . 

因此， ' 

!>(?)( 1 -2'" (,( x , X )43,) S />( i " • x n ) K ( x \ i n )) 2 

/ t 

下面利用引理 10.5.3 估计式 （10-98) 右边的项的界，可得 

X 9 

<1 - !>( i ” 丨 x n ) K ( x \ x n ) + e - (2 2 ) 

•雜 

将此不等式代人式 （10-98), 我们有 

/ >• < 1 - 2 S />( x ")/>( i " I x-)K(x-.i-) + e - 2 •一 ,2- 

该不等式的最后一项等于 



(10-97) 

(10-98) 


(10-99) 

( 10 - 100 ) 

( 10 - 101 ) 


当尺〉 / U ; jV ) + 3 e 时，它随 / z 以指数级快速衰减于0。因此，如果我们选取户 ( ilx ) 为达到率 
失真函数的最小值时的条件分布，则 K > K ( D ) 意味着义），并且只要选取足够小的 e 
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就可以使式 (10-100) 的最后一项趋于0。 

式 (10-100) 中的前两项给出了在联合分布下序列对不是失真典型的概率。因此, 
由引理 10.5.1 可知，当 n 充分大时，有 


1 一 E ^p(x\i n )K(x\i n ) = Pr((X",X")^ A^)< € (10-102) 

霉 x* 

所以，适当的选取 S 和!^ ^使 P , 任意小。 

于是，对任意选取的 d >0, 存在 e 和 n ,对于分组长度为 n 且码率为 i ? 的所有随机选取的编 
码，期望失真小于 D +夂 因此，必定存在一个具有该码率与分组长度的编码其平均失真小 
于 D +心 由于5是任意的。于是证明了当只>尺（0)时(尺， D ) 是可达的。 □ 

我们已经证明了期望失真接近于 D , 码率接近于 R ( D ) 的率失真码的#在性。率失真定理的 
随机编码证明与信道编码定理的随机编码证明显然是非常类似的。我们以高斯分布为例进一步 
讨论它们之间的相似性，并以此提供该问题的某些几何解释。信道编码对应填球模型，而率失真 
编码对应球覆盖模型。 

高斯信道的信道编码。考虑卨斯信道 y ^ X . + Z ,, 其中 Z , 为 i . i.d •〜 Y (0, N ), 且该信道 
在传输码字上的单符号功率上的功率限制为 P 。 考虑-•个 n 长的传输序列。功率限制使传输序 
列限制在尺”中半径为/斤的球内。编码问题等价于在该球内找到一个由2#个序列构成的集合， 
使其中的任何一个序列被误认为其他序列的概率尽可能地小，即使以每个序列为中心，半径是 

的球体几乎是互不相交的。这相当于用半径为的球体去填塞半径为的球。 
我们期望能容纳的球的最大数 tt 为它们体积的比值，或者等价地，为它们半径比值的”次幂。于 


是，若 M 为能有效传送的码字的数址，则有 




Un(P^N)) 


=( 


P 


Nj? 


(10-103) 


(v^N) n 、 N 

信道编码定理的结果已经说明，当 ”很 大时，要有效地实现这一目标是可能的。大约可以找到 




2 "° = (^^) 5 00 - 104 ) 

个码字，使以它们为中心的有噪声球邻域是几乎木相交的(它们相交的总体积可以任意小)。 IM 

高斯信源的牟失真。考虑方差为 a 2 的高斯信源。该信源具有失真 D 的某(2#，”)率失真码为 

尺”中2戒个序列组成的集合，其中大多数长度为”的信源序列（即所有位于半径是的球内的 
信源序列)在某个码字的邻域内。再次使用填球模型的方法，显然，最少所需的码字数世为 

2 ^ ( D ) =( 笔 ) 5 ( 10 - 105 ) 

率失真定理说明这个最小码率是渐近珥达的，即存在一族半径为的球，它们能够覆盖除去 
其概率可以任意小的一个集合之外的空间。 

以上关于几何性质的讨论使我们能够将一个好的信道传输码转变为一个好的率失真码。在 
两种情形下，其主要的思想都是对信源序列空间的填充：在信道传输中，希望找到其码宇间具有 
较大的最小距离的最大码字集；然而在率失真中，却希望找到能覆盖整个空间的最小码字集。若 
能找到某个码字集使得其中的情形之一满足由填球模型获得的界，则它对于另一情形也必然满 
足由填球模型得到的界。在高斯情形下，对于率失真编码与信道编码，选取码宇为高斯且具有适 
当方差的方案都是渐近最佳的 3 
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10 章 


10.6 强典型序列与率失真 

10.5 节证明了具有码率 i?(D) 且平均失真接近于 D 的率失真码的存在性。不仅平均失真可 
接近 于 D, 而且失真大于 D + 的总概率接近于0。证明方法与 10.5 节的论述类似，主要的区别 
在于使用强典型序列而不再是弱典型序列。这能够使我们对未被式 (10-94) 中随机选取的码字很 
好地表示的典型信源序列的概率定出上界。基于强典型性，我们现在可以给出一个等价证明的 
提纲。这将提供一个更强更直观手段来理解率失真定理3 

我们首先给出强典型性的定义，并且引用一个关于估计两个序列是联合典型的概率的界的 
_基本定理。强典型序列的性质在 Berg er [53] 中已有介绍，且在 Csiszdr 与 K6mei ■所著的书 [149] 中 
有详尽的论述。我们将定义强典型性(参见第11章），然后给出基本的引理(引理10.6.2)。 

定义称序列分€>关 于义上 的分布 /)(:r) 是 e 强典型的，如果 满足： 

1. 对任意且 pU)>0, 则有 

I x n ) - p ( a )\<^ (10-106) 

2. 对任意 且 />(fl )=0, 則 N ( a \ x n )=0 o 
其中 NU j x”) 表示字符《在序列/中出现的次数。 

由强典型序列:组成的集合称为强典型集，并记为 A: ( ”>(X), 或当随机变馕可以根 
据上下文确定时简记为 A。”、 

定义称序列对(: r ”， 关于 Yxy 上的分布 p(ar,；y) 是 e 强典型的，如果 满足： 

1. 对任意 U, 6)e^xy, 且 pia , 6)>0,则有 

^ N ( a t b I a*",y) - p ( a f b ) < (10-107) 

2. 对任意 (fl, b )^ Xxy y 且 p(a, 6)=0, WN(a, b \ x \ y) = 0 o 

其中\((2,6|：1：”,：/)为( 42 ,6)在序列对( > 1：”,，）中出现的次数。 

由所有强典型序列 (x' ywAxy 构成的集合称为强典型集，并记为或 
A ； { n \ 从定义可知，若则由强大数定律，立即可得 
下面的引理。 

引理 10.6.1 设(X ,, Y ；) 为 i . i . d .〜户 ( U )， 則当 oo 时， Pr ( A :( n ))— 1。 

[326] 我们将用到一个基本的结论，该结论估计了给定序列与另一独立抽取的序列是联合强典 

型的概率的界。定理 7.6.1 说明，如果独立地选取 X "与 V "，那么它们为弱联合典型的概 
率〜 2_” KXiy > 。 下面的引理将该结果推广至强典型序列情形，这比以前给出的结论，即随机选取 
的序列与固定典型序列 X ”的联合典型的槪率的下界估计要强。 

引理〗 0.6. 2设 Y lt Y 2 r % Y n 为 i . i . d —户 (: y ), JN ^ tx "€ A ； U ) ( X ), ( x ", Y ") eA ； ( n , ( x ) 
的概牟的界为 

2- i .< i ( Xiy ) + «,)^ p r (( x » >y «) ^ A ； (,,, X 2'" </<X!n " € » ) (10-108) 

其中当 €—0, 时， q 趋向于0。 

证明： 此处我们并不证明该引理，而本章后面的习题 10.16 中给出证明的要点。其实，该证 
明涉及找到关于条件典型集的大小的一个下界估计。 □ 

我们将直接进人率失真函数的可达性证明。仅给出一个框架来说明主要的思想。码簿的构 
造、编码与译码过程都与 10.5 节的证明是类似的。 

证明 ：选定 />( i , a ：)， 计算 pCx ) = ^ p ( x ) p(i I x )。 固定 e > 0,将适当选取 e 以达到小 
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于 D + S 的期望失真。 

码簿的生成 。生成一个由2必个 i . i . d •〜 U / Ki ,) 的序列 X n 构成的率失真码簿 C 。 记这些序 

f 

列为 X ”（ l ), …， X "(2^) 0 

编码。 给定序列 X "，若存在比，使 ( x ", 欠 "（ u；))e (即联合强典型集>,则将 x " 标上下 

标 W 。 若这样的 W 不惟一，则以字典序顺序第一个 发送。 若这样的 U ； 不存在，则令 w=\o 

译码。 令再生序列为 X "( uO 。 

失真计算。 与 10.5 节中证明的情况类似，我们计算在随机选取的码簿上的期望失真如下 

D = E ，. c d ( X \ fr ) (10-109) 

= Ec^pix^dix^X^x-)) ( 10 - 110 ) 

2 

= 'ZpU n )E c d(x\X n ) ( 10 - 111 ) 匣 

X 

其中所取的期望是针对随机选取的码簿。对于一个固定的码簿 e ,将序列分成如图 10-8 所示 
的三类。 

• 非典 型序列 / 赛 A / ( ll ) 。 选取 ri 足够大时 ，这 
些序列的总概率小于£。由于任何两个序列间 
的失真有上界那么非典型序列对期望失 
真的贡献至多为以_。 

• 典型序列且存在码字 X ” U ) 与 X ” 

是联合典型的。 此时，由于信源序列与码字为 
强联合典型的，失真作为联合分布的函数的连 
续性保证了它们也是失真典型的。因此，这些 
X ” 与它们的码字间的失真有界 D + ，且 
由于这些序列的总概率最多为1,所以，这些 
序列对期望失真的贡献最多为 D + 

• 典 型序列 x ” eA / (n) 但不存在码字欠”与 * r ” 是联合典型的。 记为这些序列的总概率。 

由于任何两个序列间的失真有上界 d 咖 ，那么这些序列对期望失真的贡献至多为尽 

第一类和第三类中的序列为不能被该率失真码很好地表示的序列。第一类序列的概率当 n 
足够大时是小于 e 的。最后一类的概率为我们将会证明其可以变得很小。于是将通过证明 
不能被很好地表示的序列的总概率很小而证得定理。我们将再以此证明平均失真接近于 D 。 

P e 的计算。假设给定序列 X \ 必须对不存在码字与其是联合典型的概率做出界佔计。由联合 
AEP 可知， X * 与任何 P 是联合典型的概率 ~2^ ( x : x > 。 因此，与； T 为联合典型的序列 PU ) 的 
期望数目为如果 R > I ( X ； X) f 这个数值是随 n 以指数级增大的。 

但上述理由并不足以证明6—0。我们必须说明不存在码字与 X "构成联合典型序列的概率 
趋向于0。联合典型码字的期望数量随 n 以指数级增大的事实并不能保证具有极大的概率至少 
存在一个码字与序列; T 是联合典型的。正如式 (10-94), 我们将误差概率展开为 

P , = S pU n )[l - Pr (( x ", X ") 6 A ； (n) )] 2 " (10-112) 

由引理 10.6.2, 我们有 

? i (( x \ X n ) e A e •⑷）:幻 + *«) 

将此代入式(10-112)，且由不等式可得 
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(10-113) 
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P e < e -(2"2—(10-114) 
若 R > J ( X ; 欠） + ei ， 则当；1-~时， R 趋向于0。因此，适当选取 e 与”，能使所有糟糕地表示 
的序列的总概率任意地小。由此不仅证明了期望失真接近于 D ， 而且能够找到一个码字使其与 
给定序列间的失真小于 D + S 的概率趋于1。 □ 

10.7 率失真函数的特征 


我们已经定义信息率失真函数为 

R ( D ) = 


HX ； X ) 


(10-115) 


其中最小值取自使联合分布 pU)qCx I - r ) 期望失真限制的所有条件分布丨工)。这是关于 

凸函数的标准的最小化问题，其中 S 小化区域是对于任意的工，满足丨 I ) = 1且 

i 

/的所有 (7( il : r )>0 构成的凸集。 

我们可利用拉格朗日乘子法求解。先构造泛函 

；(9)= ? 1 :〉昀 x ) 

X 

+ A S 丨 T.)d(x,x) (10-116) 

x i 

+ ^v(x)^2q(i I x) (10-117) 

M M 

其中，最后一项与要求 g(i I : r ) 为条件概率密度函数的约束相对应。如果令 Mi ) = S />(^)9 (i 

S 

I z ) 为由 9 (i I : r ) 诱导的关于欠的分布，那么，可以改写 JU ) 为 

J ( q ) = 2 I ] p ( x ) g(i I 

+ aS • x)d(x t x) (10-118) 

+ ^v(.x)^,q(i I x) (10-119) 

x i 

将上式关于 (?( iU ) 求偏导，我们有 

J^TT) = + w) - 5p(A(i I ，） 

+ Xp ( x ) d ( x , x ) + v ( x ) = 0 ( 10 - 120 ) 

令 logp ( X ) = 1；(工)//>(0：)，我们得到 

p(x)[log a ^f i + WU ， i) + k)g^(x)]=0 (10-121) 

或 


( 10 - 120 ) 


( 10 - 121 ) 




由于 SWi 1 幻 = 1，则必有 


M = E9(i)e_ WU 


( 10 - 122 ) 


(10-123) 








(10-124) 
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两边同乘以 pU ) t 并且关于所有 I 求和，可得 

qd ) = 


/>( 




(10-125) 


若 (?( i )>0, 我们可在两边同除以 g ( i ), 从而对任意的有 

p ( x ) e -^) 


S 




--W(x.x ) _ 


(10-126) 


将这 | Y | 个方程与失真的定义方程联合，可以计算出 A , 以及 111 个未知的 yi )。 由此以及式 
(10-124〉可求得最优化的条件分布。 

如果 Wi ) 是无约束的，即对所有的 i , 9 ( i )>0, 则以上的分析是有效可行的。不等式条件 
9(^:)>0可由库恩-塔克条件来表述，则减化为 

dj 


^(•r I 


= 0 若 g(i I 
>0 若 g(i I 


将求导的值代人，我们得到 M 小值条件为 


S 


yjq(x)e 


' >0 
I x ) = 0 

若 q ( x ) > 0 


(10-127) 

(10-128) 

(10-129) 


<1 若 q ( x ) = 0 

该特性使我们将问题转变为检验 di ) 是 否为最 小化问题的一个解。然而，要从这些方程中解出 
嫩优 输出分布却很困难。下一节，我们提出一个计算率失真函数的迭代算法。该算法是关于计 
算两个概率密度凸集间的 ft 小相对熵距离的一般算法的一个特殊情形。 . 

10.8 信道容置与率失真函数的计算 

考虑下面的 问题： 给定中两个凸集 A 与 冰如图 10-9 所示，希望计算它们之间的《小 距离： 

= min d(a 9 b ) (10-130) 

其中 dU ,6) 表示 ^和6；^ 间的欧几里得距离。显而易见 
的一种算法是任取一点: A ,找出与它距离最近的一点 
然后再固定: y , 找出 A 中距离它最近的一点，重 
复该过程，很明显，该距离随着重复次数的增加而递减。 

其是否收敛到两个集合间的最小距离？ Csiszdr 与 Tusnddy 
[155] 已经说明，如果集合是凸的，以及距离度最满足一 
定的条件，则这个交替最小化算法确实将收敛到该最小 





图 10-9 凸集间的距离 


值。特别地，若两个集合为概率分布之集，而距离度童是相对熵，那么该算法的结果确实收敛到 
两个分布集合间的最小相对熵3 

要将此算法应用于率失真，我们还需将率失真函数改写为两个集合间的相对熵的最小值形 
式。先给出一个简单的引理。该引理的另一种形式还将在定理 13.1.1 中再次出现，它建立了信 
道容量与通用数据压缩的对偶性。 

引理 10.8.1 设 /Kd/KyU) 是给定的联合分布，則使相对熵 D(p(x)p(y\x) || p[x)r 
(: y)) 最小化的分布 r (: y) 是对应于 />(：y I or) 的边际分布即： 

D(p(x)p(y I x) II p(x)r u (^)) = nunD(p(x)p(y I x) II p(x)r(y)) (10-131) 


332 




其中 r a ( y ) = ^2 p ( x ) p(y I x) Q 同时， 


I = ^ p ( x ) p(y I x ) log —^ (10-132) 


其中 
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证明: 


• / 、 p (, x ) p(y I x ) 

Uly)= EpU)P(y « x) 


D ( p ( x ) p(y I x ) II p ( x ) r ( y )) - D ( p ( x ) p(y I x ) || p ( x ) r m ( y )) 


(10-133) 


(10-134) 

(10-135) 


-s 脚 … _ 

= ^, p ( x ) p(y I x)log r r "(^' (10-136) 

= Er-(301og^^ (10-137) 

= D ( r ' [I r ) (10-138) 

^0 (10-139) 

引理第二部分的证明留作练习。 □ 

利用该引理，可将率失真函数的定义中的最小化改写为双 fiM 小化， 

R ( D ) = min min S ^ lp ( x ) q{x I x)log (10-140) 

心） f(i I jt)i )<D x i 

若/ \ 为其边际分布 p ( or ) 满足失真限制的所有联合分布构成的集合， B 为乘积 分布/ >( x ) r ( i ) 全 
体构成的集合，其中 r ( i ) 为任意，则我们有 

R ( D ) = nun minD(p II g ) (10-141) 

下面应用交替最小化算法，称为 Blahut - Arinioto 算法。先选定某个 A ， 以及初始输出分布 r ( i )， 
然后计算在失真限制下使互信息达到虽小的 g ( ilx )。 对于该最小化问题，可以利用拉格朗曰乘 
子法得到 


(10-140) 


q(i I 




(10-142) 


由此条件分布 ^( ilx ), 利用引理 10.8.1 可计)^得到使互信息达到最小的輪出分布 Ki ) 为 

r ( i ) = ^] p ( x ) q(x I x ) (10-143) 

X 

以此输出分布为下次迭代的起点。对于迭代的每一步，首先关于 g (•丨0最小化，然后关于 〆 •） 
最小化，均使得式 (10-140) 的右边减小。于是，这个最小化过程必然存在一个极限，且 Csiszdr 
[139] 已证明该极限为 R ( D ), 其中 D 与 R ( D ) 的值依赖于 A 。 因此，适当地选取 A , 就可以描绘 
出 K ( D ) 曲线。 

类似的过程可以应用于信道容量的计算。我们再次写出信道容贵的定义， 

C = max/(X;Y) = maxSEr(x)M>! 哉； 

由引理 10.8.1 可将上式写成双重最大化的形式， 
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C = max max ^ y]r(x)p(>» I x)log ^ ^ x f~ (10-145) 

此时， Csiszdr-Tusnddy 算法为一种^替 S 大化： 先猜测最大化分布 r ( x ), 然后求出 M 佳的条 
件分布，即由引理 10.8.1 坷知，这个条件分布即 


) _ r(x)p( v 1 x) 
V]r(x)/)(^ I x) 


(10-146) 


对此条件分布，利用拉格朗日乘子法求解带约束的最大化问题，从而求得最佳的输入分布 
)。 M 佳输人分布为 

W(q(x\ y))^ 

心）= (10 - 147) 


我们可以此作为下次迭代的基础 3 

关于信道容墩与率失真函数计算的这些算法是由 Blahut[65] 与 Arinxno[25] 创立起来的， 

Csiszdr [139] 证明了率失真计算的收敛性。 Csiszdr 和 Tusnddy 的交替最小化算法还可用于许多其 
他情形，其中包括 EM 算法 [166] 以及股市中寻求对数 M 优投资组合的算法[123 ]。 

要点 

率失真设信源为 X〜 pU)， 率失真度《为 dU,i ), 则率失真函数为 

R ( D ) = min I(X;X) (10-148) 

其中，最小值取自使联 合分布 />( T , i ) = p (* r ) p ( iU ) 满足期望失真限制的所有条件分布 p ( iU)o 网 
率失真定理如果 R > R ( D ), 则存在码字数目为丨浐（.）1<2"^的码序列欠 MX "), 使 
£ ci ( X T , , X "( X"))—Do ^ R<R(D)\ 则这样的码序列不存在。 

伯努利傕源在汉明失真度 M 意义 T •对于伯努利饴源•也 

R(D) = H (/»)- H ( D ) (10-149) 

高斯倍源在失真度《是平方误差的意义下，对于高斯信源，有 ， 1 

R(D) = yJogfj '• (10-150) 

倌源倌道分离性率失真为 i ?( D ) 的信源能够在信道容量为 C 的信道中传输并且 失真为 
D , 当且仅当尺 （⑴ <C 。 

多元离斯倍源对于失真度《是欧几里得均方误差的多元正态向«，其率失真函数可由反 
注水法并依据协方差阵的特征值给出。 


习题 

10.1 单个高斯随机变量的 1比 特量化 。设 X 〜 M \ Q ， a 2 )， 失真度量为平方误差。不允许分组描 

述。试证明：1比特 M 化的敁佳再生点为土^〜且1比特 tt 化的期望失真为 fa 2 。 

将此与 R = 1 时的失真率上界0 = ^2-找作比较。 ' 

10.2 具有无限失真的率失真函数。 求率失真函数尺 （ D > = minJ ( X ; 欠），其中， X- Bernoulli 

且失真度量为 
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0， x = x 

d ( x , i ) = SI, x = l 9 i =0 
«>, x = 0,i = 1 

10.3 具有非对称失真的二元信源的率失真。 在固定的 p(orli) 下计算 /(X;>0 与 D, 其中 



d ( x , x ) = 



(注： 率失真函数尺 （ D ) 没有解析表达式。） 

10.4 R(D) 的 性质。考虑离散信源 X€Y=|1,2 , …， ml , 其分布为/>丨，/> 2 ,…， /> m , 失真度量是 
d ( i ， j ) 0 设尺 （ D ) 是关于该信源与失真 度童的 率失真函数。令 = -叫为 

一个新的失真度量， / T ( D ) 为相应的率失真函数。证明 R / ( D ) = R ( D ^ w ) t 其中& = 
Y . PiWi , 并由此说明假设 miM ( f , i ) = 0, 本质上不失一般性，即对每个 x 6 Y , 存在一个 
以零失真再生信源的字符 i。 这个结果得归功于 Pinkston[420] o 
10.5 具有汉明失真度量的均匀分布信源的丰失真。 考虑在集合 II,2, …， ml 上均匀分布的信源 
X 。若失真度 M 为汉明失真，即 

-、|0,如果文=士 
D = k 如果 


求该信源的率失真函数。 

10.6 率失 其函数 的香农下界。 考虑失真度 M 为 d(x,i) 的信源 JV (满足 下列性质），且失真矩阵 
的所有列均为集合14,4, •••,<*! 的置换。定义函数 

^(D) = max H(p) (10-151) 

p*§V.< D 

关于率失真函数的香农下界 [485] 可依照以下步骤 证明： 

.(a) 证明 WD) 是关于 D 的凹函数。 

(b) 若 £WX,X)<D, 验证以下关于 /(X;X) 的一系列不等式， 

I ( X ; X ) = H(X)- H(X ! X ) (10-152) 

= H(X)- Ep(i)H(X \X = i ) (10-153) 

x 

> H ( X )-^ p ( i ) HDi ) (10-154) 

> H ( X )-^{^ pG ) D i ) (10-155) 

>H(X) - HD ) (10-156) 

其中 = ^2 p(x I i ) d ( x , i)o 

X 

(c) 证明 

R ( D )^ H(X) - HD ) 00-157) 

此即率失真函数的香农下界。 

(d) 另外，如果假设信源具有均匀分布，且失真矩阵的所有行互为置换，则尺 （D) = 
H ( X )- HD ), 即说明下确界是可以严格达到的。 

10.7 擦除失真。 考虑X 〜 Bemouni^), 设失真度*由下列矩阵给出 
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(10-158) 


计算该信源的率失真 函数。 你能给出一个简单的方案来达到该信源的率失真函数的某个值吗？ 
10.8 平方 误差失真度量意义下的率失真函数的界。 考虑连续型随机变 M X ，其均值为0,方差 
为 a 2 , 失真度 ft 是平方误差失真度量，证明 

h ( X ) - ylog (27 reD ) < i ?( D )< (10-159) 


对于前半不等式，考虑图中所示的联合分布。 


― KD — Ki) ~ "■ 


A-^(.V+Z) 


在相同方差的情况下，对高斯随机变量的描述比其他随 机变* 更难还是更容易？ 

10.9 最优率失真码的性质 3 满足 R ~ R ( D ) 的好的 （ R , D ) 率失真码对于信源 X "与表示 X ”的 
相互关系有很严格的限制。分析不等式链（10-58〉〜 （10-7 U , 考虑取等号时的条件，由此 
口 J 对一个好的码所应具有的性质进行解释 o 例如，式 （10-59) 中取等号意味着欠” 为} C 的 
—个确定性函数。 


10.10 率失真。 设义 = U ,2，",2 m | 上的均匀分布，并且 

1当: r - i 为奇数 
0当 x - i 为偶数 

找出并检验关于 X 的率失真函数 /?( D ) (可能要用到香农下界） 


dU 9 i) = 


10.11 下界。设 


I!- 


,并且' 


dr 


X dx 


dr 


= Co 定义所有密度上的 gU ) = inax / i ( X ), 保 


- i ) 4 的 X 的率失真函数。 


证 £ X 4 < a 。 尺 （ D ) 是有以上密度以及失真标准 dU ,: r ) = 

证明 R ( D )> 容⑺ - g ( D >。 

10.12 对失真矩阵增 加一列。设 K ( D ) 是一个 i . i . d . 过程的率失真函数。在这个过程中，槪率 


密度函数为 />(* r ) 以及失真函数为 i 6^ 0 现在假设用附加失真 d ( x t 
i 。）， •给 A ; 增加一个新再生符号 icj 。 J ?( D > 是增还是减？为什么？ 

10.13 简化。假设义=11，2,3,4|，/=11，2,3,4|, p ( i ) = - J -, * = 1,2, 3,4,并且 X " X 2 , …为 
i . i . d . ~/>( x ) 0 失真矩阵 d ( x ， i ) 如下 


2 


3 


4 
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( a ) 求出描述零失真过程所必需的率 R (0). 

( b ) 求出率失真函数 R ( D )。 在字母表 Y 和/中有一些不相关特性会导致问题失败。 

( c ) 假设有一个不均勻分布 />(/) = A , /=丨，2,3,4。求此 时的尺 ( D )。 

10.14 两个独立信源的率失真。同时压缩两个独立信源会比分开压缩好吗？下面的问题阐述了 
这个问题。令 U ,| 为 i . i . d . 〜 Mo :)， 失真为率失真函数为 R X ( D )。 同时，令 
为 U . d . 〜 p (： y ), 失真为 cHy ^)， 率失真函数为假设希望在失真 £ d ( X , 
XXD , 和 £ d ( VXD 2 的条件下描述过程 j (足， 广）|。于是，率足够 

了，其中 

假设过程 I x , I 和 1 y , 1 是彼此独立的。 

( a ) 证明 R Xt y ( D , , D 2 )> R x ( D ,) + R y ( D 2 ) 

( b ) 等式成立吗？ 

现在回答这个问題。 

10.15 牟失 真函数 。率失真函数定义为 

D ( R ) = min Ed ( X , X ) (10-160) 

pii \* hHXiX)<,R 

( a ) D(i?) 关于尺的增减性如何？ 

( b ) D (/ e ) 关于 R 是凸函数还是凹函数？ 

( c ) 逆率失真 函数： 通过 D ( K ) 来证明率失真函数的逆。： V !, X 2 , …， X B 是丨.^•〜/>(工）。 
假设已知 (2' n ) 率失真码 X ”—卜妒（/( X "))，且 /( X ")€2^。 假设以失真 D = 
EWX ", 欠 " GW ))) 为结果。我们必须证明给出 F 面证明步骤的 原因： 


= EcUWiUXn )) 

(10-161) 

n ,-i 

(10-162) 

71 !•! 

(10-163) 

多士 SD (/( X f ; X ,)) 
n .*1 

00-164) 

多 D (士 S/(X ■我 )) 

(10-165) 

^ D ^ I ( X n ； X n )) 

(10-166) 

% D { R ) 

(10-167) 


10.16 条件典型序列的 概率。在第7章中，我们计算了两个独立抽取的序列； T 与 V "为弱联合 
典型的槪率。然而，为了证明当其中一个序列固定而另一个序列随机的率失真定理，我 
们需要计算该概率。弱典型性技巧允许我们仅计算条件典型集的平均集合大小就足够 
了。而另一方面，利用强典型性的思想，可以得到针对所有典逛的 x ” 序列的更强的界。 
我们将会给出对所有典型的 〆 ， PrlU ' V ^ GA , I 〜 2-^ ( x ; y > 的证明框架。该手段 
是由 Ber ge r [53] 提出的，并在 Csiszdr 与 K 6 mcr 的书 [149] 中得到了完全的发展。 

设 U ,， 为 i . i . d •〜 />( x ，： y ), X 与 y 的边际分布分别为 〆 * r ) 与 p (： y )。 

( a ) 设 A 广”> 为\的强典型集 3 证明 
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I A ； (B) I 士 2必(幻 (10-168) 

(提 示： 利用定理 11.1.1 与定理11.1.3。） 

( b ) 序列对( 〆 ，：/)的联合型是指 U ,,： y ,) = ( a ，6) 在序列对中出现次数的比例 ，即： 

Px \ y m ( a , b ) =七 N ( a，b \ x n = -^1] /( x , = a ，》= b 、 (10-169) 

在给定 x ” 下，序列 y * 的条件型指一 个随机矩阵，其中的元素代表着: V 的字符6 
与 Y 中字符 a 在二重序列 ( or ”,/) 中出现次数与 a 在序列 x ” 中出现次数之比。具体 
讲，条件型 V / u "(6 U ) 定义为 

〜 _(…)= N{a N \ b a \^f ) ( 10 - 170 ) 

证明条件型的总数有上界 U + l ) i ^ iyi 。 

( c ) 关于序列 X ”具有条件型 v 的所有序列构成的集合称 为条件型类， 记作 
TVb ”）。 证明 

Tv ( x -) l <2^ (y,x) (10-171) 

( d ) 称序列在给定 序列/ 下关于条件分布 v (• | *)是 e 强条件典 型的，如果条件 
型接近于 V 。具体讲，条件型应满足下列两个 条件： 

(0 对任意 ( a ,6) e / x ； V ， 且 v ( 6 | a )> 0 , ng 

- I N ( a t b I ar ”， y > — V(b I a ) N(a I x n ) l < 丨 】 (10-172) 

( li ) 对任意且 v (6| a )=0, 則 N ( a ,6| x ", y , ) = 0 o 

满足上述条件的全体序列 y 构成的集合称为条件 典型集 ，记为 A / hkyi /)。 证明 

当给定时，关于条件典型的序列 y * 的数目可以定界如下 

;—— v y , 2 >,(H(y x) - < ' ) <l A ； { H ) ( Y \ x n ) l <(” + 1 )'^'^ 2 n ( H ( ViXH «,) (10 _ 173) 

其中当 e - K ) 时，0。 

( e ) 对于联合分布为 /> U ，： y ) 的一对随机变 ft ( X , YO , e 强联合典型集 A 广” 》 定义为满足 
. 下列条件的序列 xyn 构成的集合 

(0 对于每一对 u ,6) e ^ xy ， 且 /> u ,6)>0, 则 

七 N ( a，b I x \ y n ) - P ^^)\< rxfVT \ (10-174) 

( ii ) 对于任意且 />( fl ,6)= o , 则 ； vu ,6 U ”， y )= o 。 

所有 e 强联合典型序列构成的集合称为 e 强联合典型集， 记为 A / ( n > U ， Y )。 令 U , 
y ) 为服从/ >( ar ,： y ) 且独立同分布。对于任何/，如果至少存在二重序列 （/ ,/ ) € 
A : u ) ( x , y ), 使得⑹的全体序列 y 构成的集合满足 


•2" (H(y,x) - a(c)) < I A ； (n) || 


其中当0时， SU )— 0。特别地，我们有 


(10-175) 
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⑴设 为 i . i . d •〜 npu )。 对， eA :(”)， 证明 u ”， y ^ eA :( n ) 的概率 

可以定界为 

2-”" Uiy)+ *») < Pr ( U ”， r *) e A : ( n ) X 2 _ ” u(x,y 〉 -… (10-177) 

其中当 e -0, oo 时， e3 趋于0。 

10.17 带失真的信源信道分离定理。 Vi , V 2 ，…， 是有限字母表 i . i . d . 信源，编码为离散无 
记忆信道的一列；2个输入信号； T 。 信道 V "的输出映射为重构字母表 V " = V ")。这个 

联合信源和信道编码方法的平均失真为 D = £ J ( V ", V ") = - J - I ；£^( V | ., V I ) 0 

n «=i 


信道容鼇 c 


( a ) 证明：如果 C > K ( D ), 尺 （ D ) 是 V 的率失真函数，可能找到编码器和译码器得到一 
个任意接近于 D 的平均失真。 

( b ) (逆) 证明： 如果平均失真等于 D , 信道的容最 C — 定大于 K ( D )。 

10.18 率失真。是一个失真函数，信源 X - p ( x) f /?( D ) 是相应的率失真函数。 

( a ) 对于常数 a >0, 与失真 c ? U , i ) = dU , i ) + a 相关的率失真函数是及 （ D )。 用 
尺 ( D ) 来表示 R ( D ) (它们不相等）。 

( b ) 假设对所有的 a ■和 i , d ( x , i )> 0 , 定义一个新率失真函数 cT U , i ) = 

其中用 R ( D ) 表示相应的率失真函数 IT ( D )。 

( c ) 令 X 〜 N (0, a 2 ), c /( x , i ) = 5( x - i ) 2 + 3, 求尺 ( D )。 

10.19 带两个限制的牟失真。令 X ,为 U . d •〜 /> U )。 给出两个失真函数和4(工， 
i ) o 我们希望用码率 K 来描述 X \ 并且用失真£： 和 £ d 2 (； T , 欠 S )< 

D 2 重构 如下： 

D { = Ed x (X\^\) 

D 2 = f^ 2 (XU 2 ) 

这里 *•(•) 取 2# 个值。求出率失真函数 /?( Di ， D 2 )。 

10.20 率失真。考虑标准率失真问题，令 X ,•为 i . i . d . 〜 MX ), X "—卜文”。考虑两个失真 

标准和假设对于所有的：有 
/^( D ) 和 i ? 2 ( D ) 是响应率失真函数。 

( a ) 求出 KJD ) 和 i ? 2 ( D ) 之间的不等式关系。 

( b ) 假设必须以幻 XD 和 d 2 (； T , X n 2 )< D 的最小码率尺描述源 U , l , 那么 

㈣ i(Y)) 

卜^)— i 柳⑵） 

以及 U (0 I =2#。 求出最小码率 R 。 


历史回顾 


率失真的思想来源于香农的开创性论文[472]。他在1959年的文章 [485] 中又回顾该问题， 
并作了详尽的论述，证明了率失真第一定理 3 同时，在前苏联，科尔莫戈罗夫和他的学派从1956 
年也开始研究率失真理论。对更一般的信源，关于率失真定理的更强的结论已经在综合性著作 
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Berg er [52] 中得到了证明。 

McDonald 与 ScMtheiss [381 ] 给出了关于并联髙斯信源的率失真函数的反注水法解。对于一 
般的独立同分布信源与任意的失真度量， Blahut [65], Arimoto [25] 与 Csisz 6 r [ 139] 给出了计算率 
失真函数的迭代算法。该算法是一般交替最小化算法的一个特殊情形，也是 Csiszdr 与 Tusiuidy 
在 [155] 中提出的。 
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第 n 章信息论与统计学 


本章将阐述信息论与统计学之间的关系。我们从型方法的描述人手，它是研究大偏差理论 
的一个强有力的工具。我们不仅要使用型方法来计算稀有事件的概率以及证明通用信源码的存 
在性，还要考虑它在假设检验问题中的应用，利用它可获得此类检验的最佳可能误差指数 
(Chernoff-Stein 引理)。最后，我们讨论分布的参数估计问题，并且描述费希尔信息在统计学中的 
重要作用。 


11.1 型方法 
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离散型随机变量序列的 AEP (第 3 章)将我们的注意力集中于由典型序列构成的一个小子集 
上。一种更强有力的方法是型方法，将考虑具有相同经验分布的序列集合。在此限制之下，可以 
对具有特定经验分布的全体序列构成的集合的数目以及该集合中每个序列的概率都给出很强的 
界估计。于是，我们不仅可以导出信道编码定理的强误差界，而且可以证明一系列率失真的结 
果。 Csiszdr 和 Kdme r [149] 给予了型方法充分的发展，他们在该领域中的大部分研究成果都是基 


于这种观点获得的。 

设 &, X 2 …，兄为来自于字母表，…,心^|的《个字符所成的序列。我们将交替 
使用记号 J ：” 和 x 来表示序列 

定义序列的型 （ type )/^ (或经验概率分布) 是/中 的每个字符在该序列中出现 
次数的相对比例(对任意的 P ,( a ) = N ( a | x )/ n , 其中 NUIx ) 表示字符《在序列 


中出现的次数）。 

一个序列 x 的型记为 Pk 它是 Ah 的一个慨率密度函数。（注意在本章中，我们使用大写字 


母表示型和分布，而用不太楮确的词分布来表示槪率密 
度函数。） 

定义尺明中的概牟单纯 形 （ probability simplex) 是 

所有满足 = 1 

1-1 

的点组成的集合。 

概率单纯形是 m 维空间中的 m -1 维流形。当 
m = 3 时，该概率单纯形是集合 IU 丨 
X 2^0 r X 2^0 t + + 由于在尺 3 

中该单纯形正好是平面三角形，因此，在本章的下面内 


•*2 



容中我们以三角形表示概率单纯形。 

定义记7>„表示分母 为”的 所有型构成的 集合。 

例如，若10, II ,那么分母是《的所有可能的型所成之集为 


定义 若 pev „， 那么长度是 ri 且型为 P 的序列全体称为 P 的型类 (type class), 记为 T(P): 
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T ( P )=| x €^： P s = P | (11-2) 

型类有时称作 P 的 组分类 （composition class ) 0 

例 11.1.1 设 U, 2,3!是一个三元字母表。令 x= 11321,则型 P, 为 

• 匕 (1)= 音 , 尸 ,(2) = + ，尸 ,(3 )=含 (11-3) 

易知，型 P x 的型类为长度是5且含有3个1, 1个2和1个3的所有序列构成的集合。在此型类 
中，有20个不同的序列，即 

T(P K )= 111123,11132,11213, -,321111 (11-4) 


了 ( P ) 的元素个数为 


lT(p)l = (3ja) = 3TT!T! =20 


(11-5) 


型方法的基本功能可由下面的定理得到体现，它表明型的数目至多是 关于” 的多项式。 
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定理 11.1.1 

+ ( 11 - 6 ) 
证明： 若用向位来表示那么向 M 含 1义1 个分量。每个分量珥取 ” + 1 个不同的值，因此， 
对于型向 t 至多有 U + l ) IAn 种选取。当然，这些选取并不是独立的(例如，向 ft 的最后一个分世 
的选取由其余分量而确定）。但是，这对我们的实际需要来说巳是一个相当好的上界佔计了。 □ 
以上的关键之处是型的数目关于长度”是多项式级的。由于长度为”的序列的总数关于” 
以指数级变化，所以，至少存在一个型，使它的型类中的序列个数是指数级的。亊实上，在一阶 
指数意义下， *4 大的型类与全体序列所成之集的元索个数本质上相同。 

下面假定序列为 i . i . d . 且服从分布 Q ( x ) 0 如下的定理表明对于具有相同型 

的全体序列，它们的概率均相等。其中令 cr ( x ") = 11 Q ( x t ) ,表示关于 Q 的乘积分布。 

定理 11.1.2 若…， X n * i . i . d . 且服从^布 QU ), 則 x 的帙率仅依赖于它的«, 
且有等式 

( y (x) = 2 -n(H(P 1 ) + D(P,lQ)) (11-7) 

证明： 


cr(x) = IIqcx,) 

•_ I 


( 11 - 8 ) 


= II Q ( a ) N ^ 

=11 Q(a)< (fl 

- eA * 

=n 

= n 2" (p . ( 

= 2' S (弋 (. 

- 2”(_d(pJQ> 





(11-9) 

( 11 - 10 ) 

(11-11) 

( 11 - 12 ) 

(11-13) 

(11-14)D 


推论若 x 在 Q 的型类中，则 

Q n (x) = 2 -nH(Q) (1M5) 

证明： 若 x€7XQ), 则 P X =(Q), 将此代人式 (11-14) 即可得推论的结果。 口 

例 11.1.2 现掷一颗均匀骰子，产生长度是”的特定序列，其骰子每个面所出现的次数恰 
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好都是71 /6 U 为6的倍数〉，则显然该序列的槪率为若骰子的概率密度函 


数为 (+，+，+,古,6,0), 72 是12的倍数，则要观察到一个特定的序列使得般子每面出现频率 

恰好与槪率密度一致，这一事件的槪率正好为2-出(^匕1^°)。这是相当有意思的事。 

下面给出关于型类 TXP ) 大小的估计。 

定理 11.1.3( 型类丁 （ P ) 的大小）对于任意型 

> :\顶 2删< | T ( F ) I <2 mp) (11-16) 

\n -r i ) 

35^ 证明： T ( P ) 的精确大小很容易计算，它只是个简单的组合计数问题一在序列中分别排列 
« P ( ai ), nPU 2 ) ，…， nPU 以）个相同物体的排列方式数，即 


T ( P)I = 


nP{ai) 9 nP(a 2 ) ,nP(a\x\) 


(11-17) 


但以上这个数操作起来是困难的，因此，我们给予该值一个简洁的指数界估计。 

• 对于指数界，推荐使用如下的两种不同证明方法。对于第一个证明，使用斯特林公式[208]， 
对阶乘函数进行界估计，然后通过代数运算，可得到定理中给出的界。现给出另一个证明。先来 
证明上界。因为一个型类的槪率必<1，则由定理 11.1.2, 可得 

l > r ( T { P )) (11-18) 


= E ^( x ) (1 M 9) 

«€ T ( P ) 

= 2 2- MP) (11-20) 

*€ T(P) 

= | r ( p ) | 2 - nH ( P ) (11-21) 
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于是 


\T(P)\<2 mp) 


( 11 - 22 ) 


而对于下界，首先证明在概率分布 P 下，型类丁 ( P ) 在所有的型类中具有最高的概率： 

P "( T ( P )) 彡 P "( T ( P )) 对任意 (11-23) 

考虑对概率比值进行下界估计， • 

I T ( P ) I II Pia )^ 


PtTCP )) = _ 

p *( r (户 )） ■"丨 T (P ) , 


n P(a) nf，{o 
•^X 


{ nP(ai) t nP(a 2 ) r m ' ^nP(a t 




{ nP ( ai ) t nP ( a 2 ) 

(nP(a))! „/ \n(P(a)-P(a» 


M p{a) " 


yi ( yirya ；； I p / 、 

= IVnP ( a ))! P(a) 

用一个简单的不等式(通过对和 m < n 分别讨论容易得证) 


(11-24) 


(11-25) 


(11-26) 


由此可得 



P"[r(P)) ^ n ( riP( „ )"< p(a) - !，(fl)) 


(11-27) 


(11-28) 
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= IT n n(p(a) ~ Pia)) 

aeA ' 

=〆 •§，》貪 <a ” 

=”"㈣ 

=1 

因此， P ^ TXPDSP * (丁 ( P ))。 现在根据这个结论就容易得到下界，这是因为 

1 = E 严(丁 ( Q )) 
o ^ V n 

H ^ cP * (了 ⑼） 

= 石， (TXP)) 

<(n + l) ,A ， l P"(T(P)) 

= (n + l ) ,A，1 S 尸 ㈦ 
«€T(P) 

= (n + l)'^ 2 2-» (/>) 


(11-29) 

(11-30) 

(11-31) 

(11-32) 

(11-33) 

(11-34) 

(11-35) 

(11-36) 

(11-37) 

(11-38) 


= (n + l ) l * v , | T ( P )|2- nH(,，) (11-39) 

其中式 （11-36) 可由定理 11.1.1 得到，式（11-38〉由定理 11.1.2 得到。 □ 

对于二元情形，我们给出一个稍微好些的近似估计。 

例 H . 1.3( 二元字母表）在此情形，型可由序列中出现1的个数完全确定下来，因此，型类 


的元素个数为现来证明 




(11-40) 


若使用阶乘函数的斯特林近似公式(引理 17.5.1), 以上不等式得到证明。但我们给出如下的更 
为直观的证明。 

首先证明上界部分。由二项公式，对任意的/>, 

£ )/(1-/>)”* = 1 (11-4D 

对 0< p < l , 上述和式中的所有项均为正，故每项必然不超过1。令/> = +，且取第々项，可得 


因此， 


0( 含 ) v+r 

=(:卜 ( ” 

(:卜⑴ 


(11-42) 

(11-43) 

(11-44) 

(11-45) 

(11-46) 
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而对于下界部分，设 S 为随机变量，它服从参数《和/>的二项分布。 S 的最可能取值是 



S 二 （ np )， 这易由下面的事实 


(11-47) 


國 


P ( S = f + l ) _ ”一!• p 
P ( S =0 

及分别考虑 K 咔和 f 情形得到证明。由于二项和式中有 n + 1项，则 


令/> = + ,则有 


=+ 1 ) )/>*(1 _ />) 

= (” + 1)( 〈二〉)/>〜〉(卜/>)”-〈- 


由式 (1145) 中给出的论证，这等价于 




(11-48) 


(11-49) 


(11-50) 


(11-51) 
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综合以上两个结果，可知 


(:)禮 


(11-52) 


(11-53) 


当々关0或 n 时，可以得到吏精细的界，见定理17.5.1。 

定理 11.1.4( 型类的概牟）对任意及任意分布型类 丁 （ P ) 关于 Q ” 的概率在一 
阶指数意义下等于 更确切 地讲， 

^^_^ 2 - nD < pl , Q ) < Cr ( T ( P ))<2' nD(plQ) (11-54) 

证明： 由定理 11.1.2, 可得 

cr ( np )) = S cr ( x ) di -55) 

»€T(P) 

= 2 2' n(D(p|l0) * H(P)> (11-56) 

= | T ( P )|2-" (d<p " q) ^ h(p)> (11-57) 

再利用定理 11.1.3 获得的关于 I 丁(尸〉1的界估计，可知 

- _■ L _2' nD ( p , Q > ^ Q n ( T ( P ))<2- nD(PWQ) (11-58 )D 

(w + 1 ) 

我们可以把有关型的基本定理用如下的四个方程来概括： 

+ ( H -59) 

CT ( x ) = 2-" (D(/> - iq) + H(P - )) (11-60) 

\ T ( P )\=2 nH{p) (11-61) 

Q n ( T ( P ))=2" nDlFtQ) (11-62) 

这些方程 表明： 型的数量仅是多项式级的，而每个型对应的序列的数量是指数级的。对于任意的 
型为 P 的序列关于分布 Q 的概率，我们给出了它的精确公式。而对于一个型类的概率，我们给 
出的是一个近似公式。 


(11-58 )D 

(11-59) 

(11-60) 

(11-61) 

(11-62) 
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基于序列的型的性质，这些方程使得我们可以计算出长序列的行为。例如，对于服从某个分 
布的 i . i . d . 长序列，序列的型接近于产生该序列的分布，因而，我们可以使用这个分布的性质来 
估计序列的有关性质。在接下来的几节中将处理一些应用问题，讨论的主题 如下： 

• 大数定律 
• 通用信源编码 

• Sanov 定理 

• Chemoff - Stein 引理与假设检验 
• 条件概率与极限定理 

11.2 大数定律 


有了型和型类的概念，我们可以给出大数定律的另一种陈述。事实上，利用它们可给出离散 
情形时一种弱大数定律形式的证明。型的最®要的性 质是： 型的数景仅为多项式级，而每个型的 
序列数 ft 为指数级。由于每个型类的概率以指数依赖于型尸和分布 Q 之间的相对熵距离，所以， 
对于远离真实分布的型类的槪率依指数衰减。 

给定£>0,对于分布定义由序列构成的典型集％为 

V Q =\ x n ： D ( P z - HQXel (11-63) 

则不是典型序列的 x ” 的概率是 

1 - Q "( T * 0 ) = Q n ( T ( P )) (11-64) 

P ： D(Pi Q)>t 

< E 2 ^ {ptQ) (定理 11.1.4) (11-65) 


(11-64) 


itolfl.il) 


< I ： 2 -^ {pq) (定理 11.1.4) (11-65) 

P1XPI 0)>« 

< E (11-66) 

p ： rxPiQ)>, 

(定理 11.1.1) (11-67) 

= 2 -»(*- l ^ l k « iil n 4l) ) (11-68) 

当 n — oo 时，上式趋于0。因此，当«时，典型集的概率趋于1。这类似于第3章中所证 
明的 AEP , 它是弱大数定律的又一形式。现在来证明经验分布/ V 收敛于尸。 

定理 11.2.1 设 …， X ”为 i . i . d - rp ( x ), « 

PrID ( P X - || P )>€|<2-"( , - iA ，| k * t V IJ ) (11-69) 

进一步可知， D ( P X - || P )—0 依概牟 1 成立。 

证明： 不等式 (11-69) 已于式 （11-68) 得到证明。现在关于”求和，可得 

SPr | D ( P /|| P ) > el < oo (11-70) 

于是，对于所有的《，出现事件 || P )> el 次数的期望值是有限的，也就是说事件 1 D ( P X _ II P ) 
> el 的出现次数依概率1是有限的 ( Borc ^ Cantdli 引 理)。 因此，依概率1有|| P )— 0。 □ 

我们下面定义一个比第3章中更强的典型性。 

定义将强典型集定义为在义”中所有样本频率接近于真实频率的序列构成的集合： 

如果 P(fl)> °i (11-71) 
N ( alx ) = 0 如果 P ( a )=0) 

于是，该典型集包含所有这样的序列，它们的型的任何组分与相应的真实概率值的误差不超过 
e /|^| 0 由强大数定律，可以得到当 n — oo 时，强典型集的概率趋于1。在证明更强的结果中，特 






(11-70) [356 



别是在通用编码、率失真理论和大偏差理论中，由强典型性所能提供的附加功能是很实用的。 

11.3 通用信源编码 
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利用赫夫曼编码将已知分布为 Mz) 的 i.i.d. 信源压缩至熵临界值 H(X ) 0 如果针对某个不 
正确的分布 g ( x ) 进行的编码，那么将招致 D ( p \\ d 的处罚。因此，赫夫曼编码对分布的假定是 
敏感的。 

若真实分布 fiU ) 未知，那么压缩可达到何种程度？是否存在速率为 R 的通用码，使它可以 
充分描述熵 H(X)< 尺的任何 i.i.d. 信源？答案令人惊奇地是，确实存在。该思路基于型方法。 
型为 P 的序列有个。由于长度为 ri 的型的总数仅是多项式级的，所以，将所有型为/ V 且 
满足尺的序列/枚举出来只需要大约 nR 比特。于是，为了描述所有这样的序列，给出 
一个可以描述任何可能来自任意分布 C 3 且焴 H ( Q )< R 的序列的模式。下面先给出一个定义。 
定义对于一个服从未知分布 Q 的信源…，码率为 i ? 的分组码包括两个映射, 


即编码器 


/〆 一 |1，2,…，2#| 

(11-72) 

和译码器 


心|1，2,."，2必|一和 

(11-73) 

这里的尺称作码牟。关于分布 Q 的编码的误差概率为 



(11-74) 


定义对于某个信源，称其速率为 K 的分组码是通用的 （ univcreaO , 若函数人和么不依赖 
于分布 Q , 且若尺 > H ( Q ), 则当⑺时，尸卜一0。 

现在我们叙述由 Csiszdr 和 K 6 mer [149] 给出的通用编码方案，所依据的事 实是： 型为 P 的序 
列个数是以熵为指数增 长的； 而®的个数仅是多项式方式增长的。 

定理 11.3.1 存在一列通用信源码 (2 气 n ), 使得对满足 H ( Q )< 尺的任何信源有 0。 
证明： 固定编码速率尺，令 


R n = l?-|^|^LU 

(11-75) 

考虑序列集 


A = lx€^ ： H(P x XRj 

(11-76) 

则 


1 A 1 = S 丨 T(P) 1 

p( ： V n mp)<R, 

(11-77) 

P€V n -H{PXR a 

(11-78) 

< S 2^- 

p^V h ： h(pxr u 

(11-79) 

<(n + l) 5A ， l 2^. 

(11-80) 

= 2 ” (…， ，） 

(11-81) 

= 2^ 

(11-82) 

将 A 中的全体元素编下标，定义编码函数/„如下 


rt 、 jx 在 A 中的下标如果 

否则 

(11-83) 
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译码函数则是将每个下标映射为 A 中的相应元素。因此， A 中的所有元素可准确无误地被 
恢复，而其余所有序列都将产生一个误差。能被准确恢复的序列组的示意见图 u _2。 

现来证明此编码方案是通用的。假定…，服从分布且 f /( Q )< R ， 则译码误 
差概率为 

Pi n ) = l - Cr ( A ) (11-84) 

= S amp )) ( ii -85) 

P HiPXH, 

<U + 1) '=K Qn(T(P)) (11-86) 

<(« + lV 义之-〜州巧⑽⑺ （11-87) 

由于尺„ t 尺且则存在 ” 0 ,对所有 ” > n 0 , 有 R n > H ( Q ) 0 于是，对 n > n Q% 

/•^>^ (/>||( ^必大于 0 ,故而当时，误差概率尸卜以指数衰减到0。 國 

另一方面，若分布 Q 的熵 f /( Q ) 大于码率，那么序列所拥有的型在集合 A 之外这个事件将 
以极大的概率成立。因此，此时的误差槪率接近于1。 

误差概率的指数为 

D “ = p/^ D(P H Q) (11-88) 

如图 11-3 所示。 n 




以上所述的通用编码方案仅是许多通用方案中的一种，它的通用性是在所有的 i . i . d . 分布上 
考虑的。另外，还有其他方案如 Lempel - Ziv 算法，它针对所有遍历信源上的变速率通用码。在实 
际中， Lempel - Ziv 算法经常应用于+能简单建模的数据压缩，如英文文本或计算机信源码，我们 
将在 13.4 节再讨论。 

有人可能想知道为什么对于一个特定的槪率分布，往往有必要使用赫夫曼码。若使用通用 
码会有什么损失？ 一般地，通用码需要很长的分组长度下才能获得与针对特定的概率分布所设 
计的码具有相同的功效。而增加分组长度的代价是增加编码器和译码器的复 杂度。 因此，若事 
先已知道信源的分布，分布特定码是最佳的。 

11.4 大偏差理论 

大偏差理论的主题玎用一个例子来说明。若是 i . i . d . 服从 Bernoulli 1/3), 那 
么 + SX , 接近15的概率是多少？这是一个小的偏差（偏离期望值），所以，该概率接近于为1。^ 
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如果假定：^，: V 2 ，…，为 i . i . d . 且服从 Bernoulli 1/3), | SX , •大于3/4的概率是多少呢？这是 
一个较大的偏差，所以，该概率按指数衰减。我们虽然可以利用中心极限定理估计出这个指数， 
但对于不少的标准的偏差来讲，这样的逼近效果很差。我们注意到 jSX , = 3/4 等价于 P x = 

于是，靠近3/4的概率等价于型/\接近于(音，的概率，产生如此大的偏差的 

概率约等于2_必（（夂在本节中，我们来估计由非典型序列的型构成的集合的概率。 

设£为全体槪率密度函数之集的一个子集。例如，£苟以是均值为^的所有概率密度构成 
的集合。用一个稍微有点混淆的记号，我们记 

cr(E) = ct(e n v n ) = S cru) ⑴ -89) 

如果 £ 包含 Q 的一个相对熵邻域，则根据弱大数定律(定理 u .2.1) 可知， Q n (£)-lo 另一 
方面，若 E 不包含 Q 或 Q 的邻域，则由弱大数定律可知，0以指数衰减。我们将利用型 
方法计算这个指数。 

首先给出所要考虑的一类集合 E 的几个例子。例如，假定通过观察，发现 g ( X ) 的样本均值 
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大于或等于 a [即，]。该事件等价于事件 门巧， 其中 

E = | P ： H g { a ) PU )> a \ 01-90) 

这是因为 

j ； i ]^ x i )> a ^ y £ P x ( a ) g ( a)>a ⑴ -91) 

^> P x ^ EC \ V n (11-92) 


于是， 


Pr (~ S ^( X ,)^ a )= CT ( Ef ] Pn ) = QT ( E ) (11-93) 


这里的£是概率向 ft 空间中的半个空间，如图 11-4 
所示。 

定理 11.4.1 (Sanov 定理）设 X 2 , …， X ”为 
i . i . d .- Q ( x) t 记 P 为全体概率分布，若 EQP ， 則 

CT(E)==Q"(£n7 :> n)<(^ + l) l ^2- ,lD(p，,g) 

(11-94) 

其中 

P # = argminD ( F|l Q ) (11-95) 

P6E 

是在相对熵意义下 £：中最 接近于 Q 的分布。 

另外，若集合£是自身内部的闭包，則 



~ logCr ( E )—- D ( P # II Q ) (11-96) 
证明： 首先证明 上界： 


CT(E) = ^ Cr(T(F)) 


(11-97) 
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2_nD (尸 ■ Q> 


(11-98) 幽 


=V] 2'" min ^EnT > II D(pl1 Q) 
p ^ EC \ V n 

< 2 - "〜屮 (PIQ) 


< ^ rna ^ 2-^ (P,Q, (11-99) 

( 11 - 100 ) 
( 11 - 101 ) 

= 2 2-必 (P ._ Q> (11-102) 

p ^ EnV n 

<( w + l ) 5 Ari 2-^ (P，lw) (11-103) 

其中最后一个不等式可由定理 11.1.1 得到。注意， P •不必是口„中的元素。现考虑下界，为此， 
需有一个“良好”的集合 £ ,对于足够大的”，可以在£门7>” 中找到一个接近于的分布。如果 
假定£是其自身内部的闭包(因此，内部为非空 集）， 则由于 U ” P „ 在所有分布构成的集合中是 
稠密的，可得存在某个对所有的 n ^ n 0 , ECWn 是非空的。因此，可以找出一列分布 
使 PjEHP ” 且 D ( P ” llQ)—DW II Q ) o 对一切 

(11-104) 

(11-105) 
(11-106) 

(11-107) 

□ 


Q "( E ) = S CT ( T ( P )) 

P^KViP n 

> cr ( T ( p n )) 




从而， 


(M + 1) 


2- 


IQ ) 


lim inf^logQ"(£)^lim inf (- - D(PJ Q)) = _ D(P• || Q) 

与已证明的上界结合，可得知定理成立。 

利用 M 化的方法，可将上述讨论推广到连续型分布情形。 

11.5 Sanov 定理的几个例子 

假定计算 Pr WTjgiW ^ a^i = I ， 2 ,…，々丨，则集合 E 定义为 

£ = |P: !>U ) &⑷ > =1,2 ， .“ ，务 |. (11-108) 

为在 E 中找到最接近于 Q 的分布，¥约束条件式 （ U -108) 之下，求 D ( P || Q ) 的最小值。利用拉 
格朗日乘子法，构造泛函 

J(P) = l]P(x)log§^ + 沿⑴ + v^>(x) U1-109) 

然后对其求微分，可以计算出最接近于 Q 的分布具有形式 

Q ( x ) eV k ^ 


P *( x ) = 


( 11 - 110 ) 


^ Q ( a ) e ^ {a) 

其中常数 A , 根据满足约束条件选定。注意，若 Q 是均匀的，则 P •是最大熵分布。用第12章中 
所述的同样方法，可以验证的确是使 ^(^11 Q ) 达到最小值时的分布。 

下面考虑几个特殊的例子。 

例11 .5.1( 骰子）假定掷均匀骰子”次，骰子出现点数的平均值大于或等于4的概率为多 
少？由 Sanov 定理，可知 


网 
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m 


Q n ( E )=2 ' nDiP IQ) 

其中是在所有满足 

T,iP(i)>4 

的分布 P 上，使 D ( P || Q ) 达到最小值时的分布。由式 (11-110), 可得具有形式 


( 11 - 111 ) 

( 11 - 112 ) 



(11-113) 


其中 A 可根据条件2沪7«) = 4确定。求其数值解，可得 A =0.2519, P - =(0.1031, 0.1227, 
0.1461， 0.1740, 0.2072, 0.2468), 故 D ( P - || = 0.0624 比特。因此，掷 10 000次骰子，其出 



现点数的平均值大于或等于4的概率~2_ 624 。 

例 11.5.2( 硬币）假定有一枚均匀硬币，掷1000次。要估计观察到出现正面多于700次的 


概率。这个问题类似于例 11.5.1, 其概率为 
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P ( X n ^0.7)=2 _nD(p r，0> 


(11-114) 


其中 P •为 (0.7, 0.3) 分布，而 Q 是 (0.5, 0.5) 分布。此时， D(Pl Q ) = 1 - H ( P * ) = 1 - H 
(0.7) = 0.119。因此，在1000次的试验中，出现700次以上的正面的概率约等于2_ 119 。 

例 11.5.3( 相互依赖）设 QU, ： y) 为给定的联合分布，令 Ci 0 ( ： r, ： y) = Q(:r)Q (: y) 为由 Q 的 
边际分布形成的乘积分布。要知道服从分布 Qo 的样本“表现”出服从联合分布 Q 的似然性。相 


应地，设 (X,,l) 为 i.i.d. 〜 Q 0 U, ： y) = QU)Q (: y )。 如 7.6 节定义的联合典型性,即 (？,：”) 关 
于联合分布 Q ( xj ) 是联合典型的当且仅当样本熵接近于它们的真实熵： 


且 


-- logQ ( x ")- H ( X ) <e 
n 

(11-115) 

--^-logQ(y)-H( y) <e 

n 

(11-116) 

n 

(11-117) 


我们希望计算“发现一对 ( x "， y ) 似乎关于 Q 是联合典型”的槪率(在乘积分布下）[即（，，父）满 
足式 （11-115) 〜（11-117)]。 ^ P x ^ EnVn ( X 9 Y ) 9 则 U ”， y ) 关于 QU , 30是联合典型的， 


其中 

E = \ P ( x 9 y ) : | - ^ P ( x t y )\ ogQU ) - H ( X )|< e , 

I - l > U ，： y)logQ (: y ) ~ H ( V )|< e , 

|- - H ( X , Y)|<ei (11-118) 

利用 Sanov 定理，可知它的概率为 

QS (£)=2-" D ( P ，, q o , (11-119) 

其中 P •是满足在相对熵意义下最接近于 Q 0 约束条件的分布。此时，当 £— 0时，可以证明（习 
题 11.10) P •是联合分布 Q ， Qo 为乘积分布，故其概率为 厂必 )flQ ⑴ 0 ，这与 
第7章所得的关于联合 AEP 的结论一致。 

在下一节中将要考虑，当序列的型属于特定的分布集£：时该序列的经验分布。我们将 证明： 
不 仅集合£的概率由 D ( P， II Q ) 本质地决定，而且条件型本质上就是其中 II Q ) 是 
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£中元素与 Q 之间的最近距离。因此，若考虑序列的型在£中，则该型是非常可能接近于 
P * 的。 

11.6 条件极限定理 

我们已经证明了服从分布 Q 的序列的型构成的集合的概率本质上由该集合中最接近于 Q 的 

元素的概率所 决定； 该概率值在一阶指数意义下等于其中 

D # =nunD(P|| Q) (11-120) 

这是因为型的集合的概率等于每个型的概率之和，它超过最大项与项数的乘积。由于项数关于_ 
序列长度是多项式级的，故在一阶指数意义下，该和等于最大项。 

现在将上述讨论加强，使得它不仅能够证明集合£的概率基本上与最接近型尸‘的概率一 
致，而且也可以证明其他远离 P •的型的总概率可以忽略不计。这表明实际观察到的型以非常高 
的概率接近于我们称此为条 件极限定理。 

在证明这个结论之前，先来证明“毕达哥拉斯” 

(Pyrhageorean) 定理，它可以让我们了解 D(P|| Q) 的几 
何性质。由于 D(P|| Q) 不是真正的度许多有关距 
离的直观性质对 D(P II Q ) 来讲都将失效。而下面的定 
理表明 D(P|| Q) 在某种意义下类似于欧几里得度 ft 平 
方的性质(图11-5)。 

定理 11.6.1 对于闭凸集 ECZP 及分布 Qi E 、 

设:是与 Q 的距离达到最小值时的分布，即， 

D ( P m II Q) = ironD(P|| Q ) (11-121) U 5 关于相对煉的毕达哥拉斯定理 
則对任意的有 

D(P|| Q»D(P|| P*) + D(P- || Q) (11-122 ) 画 

注： 该定理的主要用途 如下： 假定有一列 Q)-D(P' II Q), 则由毕达哥拉斯 
定理知，亦有 D ( PJ 广）—0。 

证明： 考虑任意设 

P A = AP + (1-A)F - (11-123) 


则当 A — 0时巧—又由于£是凸集，则对 0< A <1, P x eE 0 而 V ( P . II Q ) 为 D (尸 A II Q ) 
沿路径 P 上的最小值，从而 D(A II Q ) 关于 A 的导数在 A =0点处非负。令 


D A = D(P A II Q) = SP, (x)log§^ 

(11-124) 

则 


^=2((P(x)-P-(x))logg^ + (P(x)-P-(o:))) 

(11-125) 

令 A=0, 此时尸 A = P' 同时利用 5： 尸 U) = S/^U) = 1, 可得 


。 <( 乳。 . 

(11-126) 

= S(P(x)-P a (x))log^^ 

-(11-127) 

=以⑺4 QU )^ P ' (表譜 

(11-128) 
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= 2 P ( x ) log £^^-2 P -( X)log 譜 (11-129) 

= D ( P || Q )~ D(Fli 厂） - D (广 || Q ) (11-130) 

至此定理得证。 □ 

可注意到相对熵 D(P || Q ) 具有如欧几里得距离 
1368] 的平方的性质。假定在尺”中有一凸集£。设 A 为集 
合外一点， B 是集合中最接近于 A 的点，而 C 为集合 
中的任意点。线段 BA 和 BC 之间的夹角必为钝角， 

即 1\ c >1 2 ab ^ 与定理 11.6.1 具有相同的形式。 

见图 11-6 所示。 

下面证明一个有用的引理，它表明相对熵收敛蕴 
涵 A 范数的收敛。 

定义两个分布的 A 距离定义为 图 11-6 关于距离平方的三角形不等式 

II - P 2 II 1 = 1] » PiM - P 2 ( a ) I (11-131) 

令 A 为满足心 ( o :)> P 2 ( x ) 的所有构成的集合，则 

II Pi - ^2 II 1 = S I P |(:) - P2U ) I (11-132) 

= ^( P x ( x ) - P 2 ( x )) + S ( P 2 ( x ) - P x ( x )) (11-133) 

= P 1 ( A )- P 2 ( A ) + P 2 ( A f )- Pi ( A f ) (11-134) 

= P 1 ( A )- P 2 ( A ) + l - P 2 ( A)-l + P l M ) (11-135) 

[369] =2( P x ( A )- P 2 ( A )) (11-136) 

又注意到 

P 2 ( B )) = P x ( A )- P 2 ( A ) = - 1 (11-137) 

式 （11-137) 的左边称为 h 和之间的变 差距离 （variational distance ) 0 
引理 11.6.1 

D(P y II Pi)>^2 11 Pl " P 2 11 > (1M38) 

证明： 首先证明二元情形。考虑两个二元分布，其参数分别为/>和<?,且 P > qo 下面证明 

piog J - + ( i -/>) log p - q ) 2 

上式两边的差值 g (/>，9) 为 

《(/>， 9) = Plog f + (1 一 g ~ 点 （ 广 一 9) 2 

则由 q ( l - q)<：^；y 可知 

Ae(p^q) = + (J - 2 ^ 2( 9 - />) 

• = v (巧 fe - ⑤") 

<0 

若(? = />，则 g (/>，(?）= 0, 因此，对 有 g ( p ， q )>0, 从而对二元情形引理获证。 


(11-139) 

(11-140) 

(11-141) 

(11-142) 

(11-143) 
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对一般情形，若有两个任意分布和 P 2 ，设 

A=|x ： P 1 (.r)>P 2 (x)| (11-144) 

定义一个新的二元随机变 M y = i >( x ) 为 a 的示性函数，设；^和户 2 构成 y 的分布。于是^和 
户 2 对应于的量化形式。此时，将数据处理不等式应用于相对熵（由互信息的数据处理_ 
不等式的相同证明方法得到），并且使用式（11-137)，我们可得 

D(P, || P 2 )> D ( P l II P 2 ) (11-145) 

>^( P l ( A )~ P 2 ( A )) 2 (11-146) 

= 2^11 P,-P 2 II? (11-147) 

从而引理获证。 □ 


现在可以对条件极限定理进行证明了。首先简单介绍一下所用的证明方法。如本章开头所 
叙述，在分布 Q 下，一个型的槪率指数依赖于该型到 C ? 的距离，因而，一个远离 Q 的型出现的 
概率以指数衰减。这是核心思想。将£中的型划分成两 个类： 第一类是到 Q 的距离与 P " 到 Q 
的距离差不多(不超过 /：T +2 幻的 集合，第二类是到 Q 的距离超出 D" +2M 如图 12-6 所示）。 

第二类的槪率与第一类的概率相比，是按指数衰减的。因此，第一类的条件概率趋于1。利用毕 
达哥拉斯定理可以证明第一类中的所有元索均近似为,从而定理可以得到证明。 

下面的定理是最大熵原理的一个重要的加强形式。 

定理 11.6.2( 条件极限 定理） 设 E 为 P 的一个闭凸子集，而 Q 是不在£中的分布。设 X " 

X 2 ，…，尤是 i . i . dQ 的离散型随机变量序列， P •为达最小值 mirv et D ( P || Q ) 时的分布。則 
当 n - oo 时，依概率有 

(11-148) 

即在假定序列的型为£中元素，对于足够大的〜&的条件分布近似为 P \ 

例 11.6.1 若^是 i . i . d .~ Q ，则 

Pr \ X l = a \^ ZX 2 i > a \— P m ( a ) (11-149) (37 l ] 

其中是满足 彡 a 条件的所有 P 中使 D(P || Q ) 达到最小值时的分布。此最小化 
的结果为 

p ' (a) = QU) s^ (11 - 150) 

禱 

其中 A 根据条件 = a 确定。于是，在给定关于平方和的约束条件下， Xi 的条件分布 
是起初的概率密度函数和最大熵概率密度函数(在此情形下，它是高斯型的）的(标准化)乘积。 

定理的 证明： 定义集合 

S ,= \ PeP ： D ( P \\ QXt \ (11-151) 

由 D ( P || Q ) 是关于 P 的凸函数，可知集合 S , 是凸集。令 

D m = D ( P m II Q ) = minD(P || Q ) (11-152) 

P6E 

由于 D ( P || Q ) 关于 P 是严格凸的，则惟一 C 现定义集合 

A = S D '，2 sr\E (11-153) 

以及 



H = E - S D '^ r\E (11-154) 

于是， AUB = £。 这些集合的关系如图 11-7 所示。由于仅 
存在多项式级数目的型，可得 

CT(B) = E Q n (T(P)) (11-155) 

P€Er\V n -DiPkQ)>D' *23 

< S 2- n(plQ) (11-156) 


< s 

P€EnT , || ： D<PPQ)>D**2i 
P€EC\P m D{Pf Q)>D'*2i 


(11-157) 


(11-158) 



另一方面， 


图 11-7 条件极限定理 


cr ( A )> Q n ( s D ^ s r \ E ) 

= E 


cr(T(P)) 


P ^ EOP m ： tXP [ 

> E 

P^E(VP -Di.P\ 


(n + 1) 


^" D ( PUQ ) 


当 H 充分大时 


(11-159) 

(11-160) 


(11-161) 


( 11 - 162 ) 


不等式成立是由于所有项的和大于或等于其中的一项，当 《 充分大时，至少存在一个型在 S D - +(y 
门£门卩„中，于是当；!充分大时， 


Pr ( P x -€ B | P x - e £) = fl ^p 


cr(B) 

Q"(A) 


(11-163) 


(11-164) 


2 - (11-165) 

- i _ ”(D ’ ♦幻 

U + l) IAr|Z 

= (n + l) 2IAri 2"" i (11-166) 

当 ti - oo 时，它趋于0。因此，当时， B 的条件概率趋于0,此组涵 A 的条件概率趋于1 0 
现来证明在相对熵意义下， A 中的所有元素均近似为对 A 中的所有元素， 

D(F|| Q)<D # +25 (1M67) 

因此，由“毕达哥拉斯”定理(定理 U .6.1), 可得 

D(P|| P - ) + D(P- II QXD(P|| QXD* +2^ ⑴ -168) 

由 D ( P m II Q ) = D \ 上式蕴涵 

D(P II P ')^ 2 S (11-169) 

于是，若 则 D(iMlQ)<lT +25, 从而， D ( P X \\ P m X 2 d 0 故而，由 PH 尸 x ，eA|iV 

€£l— 1，当 n—oo 时，可得 

Pr(D(Px- II P # X2<^lPx-e£)-l (11-170) 

由引理 11.6.1 可知，若相对熵较小，则可推出 A 距离较小，从而 max fl€ ^lPx-(a) -P" (a) 丨也 
较小。于是，当；时， Pr(l/VU )- i^U)l>eUYe£)— 0。等价地，这可写成 

Px ( X x = a \ P ^ eE )^ P m ( a ) 依槪率 jeY (11-171) 

在这个定理中，我们仅证明了当 /z— 00 时边际分布趋于尸、利用类似的讨论，可以证明该 
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定理的一个更强的 形式: 


Pr ( X » = a ,, X 2 = a 2 , …， = a m I G E )-^ Y [ p -( a i ) 依概率 （11-172) 

这对固定的当 m — oo 时是成立的。但当 w = w 时，结论并+—定成立，因为存在终端效应， 
序列的尾部的各项可由其余的项来确定。假定序列的型在 E 中，这说明各元素之间不再独立。 
条件极限定理表明起初的一些元是依公共分布渐近独立的。 

例 11.6.2 作为条件极限定理的一个例子，考虑掷 n 次均匀骰子。假定结果出现的点数和 
超过4«，那么由条件极限定理可知，第一次骰子出现点数 II , 2，一, 61的概率近似等于 
P B ( a ), 其中是 E 中最接近于均匀分布的一个分布，这里此时 
的最大熵分布为 

2^ 


374 


P*( 


(11-173) 


其中 A 可根据条件 (0=4 确定(见第12 章）。 此时，即为第一个(或其他任一个)骰子的 
条件分布。显然，所观察到的起初一些骰子的行为似乎相互独立且服从一个指数分布。 

11.7 假设检验 

在统计学中，一个标准的问题是根据观察数据，确定两种可选解释中该选取哪一种。如在医 
药测试中，人们要测试一种新药物是否有效。类似地，掷硬币过程所产生的一个序列可揭示该硬 
币是有偏的还是均匀的。 

这些是一般假设检验问题中的例子。在姑简单情形，我们考虑如何确定两个 i . i . d . 分布中的 
一个。一般的问题苟表述 如下： 

问题 11.7.1 设 Xi ， X 2 , …， Si . i . d •〜 QU )。 考虑两个 假设： 

• H l ：Q = P 1 o 

• M 2 'Q = P 2 o 

考虑一般的判决函数 gUA , …， A ), 其中 g ( x lf x 29 -, x H ) = l 表示假设 a 被接受，而 
g (4,： T 2 ，…， x „) = 2 表示假设《 2 被接受。由于函数仅取两个值，则通过鉴定满足…， 
^) = 1 的序列构成的集合 A , 也可将检验结果确定下来；该集合的补'集即是由满足尽 （ A , 
a : 2 ，…, x „) = 2 的全体序列构成。定义两类误差槪率： 

(11-174) 

和 

/?=?“(；^，乂 2 ，...,；0 = 1|付 2 真> = 6(八） （11-175) 

通常，希望同时最小化这两类概率，但往往它们之间存在着均衡关系。因此，一般对这两类 
误差概率中的一个给予约束条件而对另一个进行最小化。对此问题， Chemoff - Stein 引理可给出 
关于误差概率的最佳可达误差指数。 

首先证明奈曼-皮尔逊 ( Neyman - Pearson ) 引理，它是两个假设之间的最佳检验形式。下面我 
们仅对离散分布情形给出结果；而对连续分布情形，同样可以得到相同的结论。 

定理 11.7.1( 奈曼-皮尔逊 引理） 设…，&为 i . i . d . 服从概率密度 Q 。 考虑相应的 
假设0 =尸,与0 =尸 2 的判定问題。对于 T > 0 9 定义一个区域 

训+ 念二; :::妙 


375 


T 


(11-176) 
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376 


m 


设 

a n = Pl ( A c n m) t p -= Pi ( A n ( T )) (11-177) 

为判决区域是的相应误差概丰 。设乩 为另一判定区域，相应的误差概牟为 a 和戸 。若 
，，则例、 

证明： 设焱= 4„(了)为由式 （11-176) 所定义的区域，为其他接受域。令心 和心分 
别为决策域 A 和 S 的示性函数。则对任意的 *=(&, 々,•••, 

(^ a ( x )- ^( x ))( P ,( x )- TP 2 ( x )) X ) (11-178) 

这可通过分别考虑 A 和 xg A 两种情形得到。将上式乘积展开并在全空间上求和，可得 


0 < s ( 一 n A p 2 - p ,^ B + tpm 

(11-179) 

= I ]( P 1 - TP 2 )- S ( P .- tp 2 ) 

A B 

(11-180) 

=( 卜 <r)_w _u-<x) + tp 

(11-181) 

= T ( p - p m )-( a m - a ) 

(11-182) 

由于 T >0, 至此完成该定理的证明。 

□ 

奈曼皮 尔逊引理表明两假设的最佳检验具有形式 


P 2 ( X l , X 2 ,-, X ft )^ i 

(11-183) 


此为似然比检验，其中的《 


P { (X l 9 X 2 f -.X n ) 


P 2 (X 1 ,X 2 ,-,XJ 
验中[即对 /^ ATUw 2 ) 和/ 2 =^(-1,^)],似然比为 


称为似然比。例如，在对两个离斯分布之间的检 


鳄 

II 


/ 2 (x lf x 2t -,xj 




f-. dim 1 

■ ^ / V ^ 1 

(11-184) 



”卑 

(1M85) 

= e fi f 

(1M86) 


这时的似然比检验仅需将样本均值与阈值作个比较。若使两类误差概率相等，则必须令了= 
见图 11-8 所示。 

定理 11.7.1 表明最佳检验是似然比检验。可将对数似然比改写成 
L(X lf X 2 , —,X n ) = log 


.P,(X,,X 2 ,-,X n ) 

一 {og P 2 (X lf X 29 - 9 X n ) 

(11-187) 

V, Pi(X.) 

■ h log P2(x,) 

(11-188) 

-E nPx-(a)log p2(a) 

(11-189) 

-E ^w a )iog P2(a)Px . (a) 

(11-190) 

一 • 心⑺ lGg h(a) 2 ^ (a)lo « P { (a) 

(11-191) 

= nD(Px-|| P 2 )-nD(Fx-|| P { ) 

(11-192) 


即对数似然比是样本的型分别到两个分布的相对熵距离之间的差值。因此，似然比检验 
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等价于 


P l (X lt X 2 ,-,X n ) 

P 2 (X,,X 2 ,-,X n ) 


d(/v II p 2 )-m/v II Pi)>^\ogT 


(11-193) 

(11-194) 


我们考虑与上述检验等价的 问题： 确定与假设相对应的型的单纯形区域。最优区域具有式 
(11-194) 的形式，该区域的边界是由距离之差为常数的型构成的集合。这个边界类似于欧几里得 
几何中的垂直平分线，其检验的说明如图119所示。 



基于 Sanov 定理，现在非正式地给出如何选取阈值来获得不同的误差概率。记 B 表示假设1 
被接受的集合。则第一类误奉概率为 

= (1 M 95) 

由于集合 ZT 是凸的，则利用 Sanov 定理坷证明误差概率基本 _ h 可由砂 中的最接近广的元蒺的 
相对熵确定下来。所以， 


Qn ^ MP ； lP x ) (11-196) 

其中/ V 为仗中最 接近于 分布厂 的元素。类似地， 

氏土 2 - nD ( p ; 丨 /V (11-197) 

其中为 B 中最接近于分布 P 2 的元素。 

在约束条件 mpli p 2 )- d ( p \\ 下最小化 mp II Pi ), 可得到 b 中最接近于 

P 2 的一个型。利用拉格朗日乘子法，在约束条件 D ( P || P 2 )- D ( P \\ 下最小化 

D ( P || P 2 ), 可得 

J(P)=SP(x)log^^ + ASF(x)log^f] + ,SP(x) (1M98) 


关于 P ( x ) 求偏导，并令其值为0,得 

log ^S + 1 + Alog ?! T ^ + ,,=0 

解此方程组，可得最小化参数 P 具有形式 

厂 - P •一 pu^)pr. A uL 

- eA * 


(11-199) 

( 11 - 200 ) 




379 



其中 A 由满足条件 D(/V II P 2 )- D ( P x - II 尸^:^来选定。 

因式 （11-200) 的对称性， P ： = Pi ,且误差概率按指数衰减，其中的指数可由相对熵 
D ( P * || P ,) fflD ( F # || P 2 ) 表征。从方程式中可注意到，当 A — 1时， P A - P lf 而当 A — 0时，尸 A 
— 巧。当 A 变化而 P A 描绘出的曲线是单纯形中的一条测地线。这 里巧是 个标准化的凸组合, 
其中所说的组合是指在指数上考虑的（图11-9)。 

在卞一节中，我们计算当两类误差槪率中的一个任意缓慢地趋于0时的最佳误差指数 
( Chemoff-Stein 引理)。我们会对两类误差槪率的加权和进行最小化，从而得到 Chemoff 信息界。 

11.8 Chernoff-Stein 引理 


现在考虑将其中的一类误差槪率固定而对另一误差槪率进行最小化的假设检验。我们将证 
明该概率按指数变小，而且该指数正好是这两个分布之间的相对熵。该证明过程中使用了 AEP 
的相对熵表述形式。 

定理 11.8.1( 相对熵的漸近均分性）令 X ,. X 2f -. X ,,为服从 P / i ) 的独立同分布随机变量 
序列，又令 P 2 ( x ) 为义上 的任意分布，那么 

1 I _ P〆 X| ， X: ， ... ， X”） ^ r*/ n II n \ / i \ OA1 \ 


依概率收敛。 

证明： 这直接由弱大数定律推出。 


( 11 - 201 ) 


士 log 


P ,( X it X 2 , 

P 2 (X lt X 2t 


, rip .( x ,) 


- log - 

(11-202) 

IlP 2( X .) 

• ■1 


1 V , Pi ( X .) 
n ^ log P 2 ( X .) 

(11-203) 

- E P ^ pt ( X ) 依槪率 

(11-204) 

= D(Pi II P 2 ) 

(11-205) 口 


与通常的渐近均分性一样，也可以定义相对熵的典型序列，使其经验相对熵趋于其期望值。 
定义对于固定的 n 以及 e >0, 序列 Ui , x 2 , …， I ”称为相对燏典型的 （relative 
entropy typical ) ,当且仅当 

D ( P , II P 2 )- c <^ g ；^； g ；：；-；-；^< D ( P 1 II P 2 ) + e dl -206) 

所有相对熵典型序列之集称为相对熵典型集，记为 A ：( P X II P 2 )o 

作为相对熵的渐近均分性的一个推论，可以证明相对熵典型集满足下列性质： 

定理 11.8.2 

1. 对任意（々兩 ，…，: rje A 卜 (A II P 2 ), 

込 U ，： r 2 , …， x” ） 2-”( D(p iW e> 

< P 2 ( x, f jc 2 , — . • 

(11-207) 

2. 对于充分大的”， PiiA^CPi II P 2 ))> l - e 0 

3. P 2 ( A ( e n) (Pi II 
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4. 对于充分大的 n , P 2 ( Ai n) (Pi II P 2 ))>( l - e )2-" (D(P » lp ^ + c) o 

证明： 该定理的证明可以直接由定理 3.1.2 相同的手法得到，在这里只需将计数度量换成概 
率测度 P 2 。 性质1的证 明坷以 直接从相对熵典型集的定义推出。第二条性质可由相对熵的渐近 
均分性(定理 11.8.1) 得到。为了证明第三条性质，我们给出如下连锁关系式 

P 2 ( A i r ) ( P x || P 2 )) = S P2 ^ x 2t 

•r.eO * P,> 

S P^x 2 ^,x n )2-^ p ^ f 

•CA^P.IP,) 

n(D(P,^ 2 )-«) ^ P 1 (x lt X 29 -,X n ) 




s 

r'CA^tP.lP,) 


(11-208) 

(11-209) 

( 11 - 210 ) 


P ,( Ai " ) ( P 1 || P 2 )) 


( 11 - 211 ) 

( 11 - 212 ) 


== 2~" (D(P . * P 2 ) 

<2 _n<D(p ' , ^ ) 

其中，第一个不等式可由性质 1 推出。第二个不等式基于任何集合关于厂的概率不会超过1这 
个 事实。 

为了证明相对熵典型集的概率的下界，讨论如下的关于概率下界的一个平行的结果： 

P 2 (A[ n) (P l II P 2 )) = D P 2 Ux 9 x 2 ,- 9 x n ) (11-213) 

/ ca ^ p . Ip ,) 

彡 I ； Pi(x 1 ,x 2 ,-,xJ2-" (D(r .» r ^ ) (11-214) 

= 2- <D(p . |p ^ Ht) S P,(x lf x 2 ,-,x n ) (11-215) 

I P,) 

= 2-" < D ( p » ,/， * )4<) P 1 ( Al - ) ( P 1 II P 2 )) (11-216) 

^( l - e )2' n(D(p - l,p » ) + c) (11-217) 

其中，第二个不等式直接从 A 广（匕 II P 2 ) 的第二个性质推出。 □ 

由第3章中的标准渐近均分性，也可以证明任何具有高槪率的集合与该典型集有大的交集。 
因此，拥有约2#个 元索。 我们接下来证明相对熵的对应结果。 

引理 11.8.1 令氏 为序列…， a 构成的集合且 P〆 艮 ） >1 _e 。 再令 P 2 满足 

D(P 1 II P 2 )< + ⑺的一个分布。那么， P 2 (B n )Xl-2€)2-" (D(p * llp * ) + <) o 

证明： 为了简洁起见，将 II P 2 ) 改记为 A „。 由于匕（4)>1-£以及 
(定理 11.8.2), 利用事件之并的不等式，有等价地，/ V 氏门 A ”）> l -2 e 。 
于是， 

Pi(B n )^P 2 (A n D BJ (11418) 

= S 仏 ( 工”） （ 11-219) 


/ e ' nB . 

^ s ^ 

^■€ A . nB . 
= 2 -" (D(p - 


(? )2 -着, 


( 11 - 220 ) 


( 11 - 221 ) 


D P ,( x ") 

= 2 -n(D(P 1 lP J ).«)p i(AnnBn) (11-222) 

W ”< D ( p , lP ,> + t ) (1 - 2e) (11-223) 

其中，第二个不等式由相对熵典型序列的性质推出（定理 11.8.2), 而最后一个不等式由上述关 

于并的不等式推出。 □ 

我们现在来考虑两个假设 Pi 与尸 2 的假设检验问题。在固定误差概率的情况下，让另一个 


381 


382 
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误差概率最小化。我们证明相对熵是误差槪率的最佳指数。 

定理 11.8.3( Chemoff-Stein 引理） 设 X it X 2 , …，为 i . i . d . 〜 Q 。 考虑两种选择 Q = P t 
和 0 = P 2 的假设检验问题，其中 D ( P 1 II P 2 )<~。 设失为假设 Hi 的接受域，误差概率为 

a„ = P!(A c n ) A = P5(A„) (11-224) 


且对于 0< e <+， 定义 


383 

则 


Pn = min ft 
Ad” 
；<e 

n 


(11^225) 


lim 丄 log ^- LX/MlPO 

Jl 


(11-226) 


证明： 

分两步来证明。第-•步给出一列集合 A n ， 其误差概率按指数系数 D(h II P 2 ) 下降到0。 
第二步证明根本没有其他集合列的误差概率能够比该列集合所对应的误差序列收敛得更快。 

在第一步中，选取 II P 2 ) o 正如定理1丨 .8. 2中证明的那样，该列集合对于充分 
大的满足 PAKXeo 并且由定理 11.8.2 中的性质3,我们还有 

Wm ： L \ ogP 2 ( A n X -( D ( P l II P 2 )'£) (11-227) 

*— « n 

从而，相对熵典型集合达到该引理的界。 

为了证明没有更好的其他序列，考虑任意列集合使 P ,( B n )> l -£ o 此时，由引理 
11.8.1，得到 从而 

lim - J - logP 2 ( B n )>'( D ( P 1 || P 2 ) + €)+ lim ^ log ( l -2 e )= -( D ( P , II P 2 ) + e ) (11-228) 
这表 1 明没有任何集合序列能够使误差概率收敛于 0 的指数速度比 D ( P ! II P 2 ) 更好。于是，集合 
序列 II P 2 ) 在槪率意义下按指数渐近最优。 口 

尽管相对熵典型序列集是渐近最优，即可以达到最佳渐近速率，相对于给定的假设检验问 
题，但它却不是最优的。最优集是奈曼-皮尔逊引理给出的使误差槪率最小化的集合。 


11.9 Chernoff 信息 


我们已考虑过经典处理方式的假设检验问题，对其中的两类误差概率是分别进行处理的。 
384] 在推导 Chemoff - Stein 引理过程中，令从而得到戽士2_"°。但这个方法缺乏对称性。如果 
— 考虑的两个假设存在先验概率，则可得到一个贝叶斯 （ Bayesian ) 方法。此时，我们要最小化的是 

总误差概率，它是单个误差概率的加权和。由此方法得到的误差指数即 Chemott 信息。 

具体设置如下： X ,, X 2 , …，\为 i . i . d . 〜 Q 。 有两个假设 •• Q = h 的先验概率为々以及 
Q = P 2 的先验概率为巧。则总误差槪率为 

P { e n ) - n lQ ^^ n (11-229) 


令 


定理 11.9.1 



( Chernoff ) 贝叶斯误差概率的最佳可达指数是 IV , 其中 


D - =D(P a * II P 1 )=D(P a - II P 2 ) 


(11-230) 

(11-231) 
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1] P \( a ) P l 2 ~ Ha ) 


(11-232) 


且 r 为满足 

D ( P a - II P ,) = D ( P a - II P 2 ) (11-233) 

的入值 0 

证明： 基本的详细证明过程在 11.8 节中给出。我们已证明了最优检验为似然比检验，它可 
以认为是具有形式 


D ( Px -|| P 2 )- D ( P ^\\ P I )> J - Iog 7' 


(11-234) 


此时检验将概率单纯形划分成了分别对应于假设1和假设2的两个区域，如图 11-10 所示。 

设 A 为相应于假设1的型所成的集合。根据前面讨论过的式 (11-200), 在集合中最接近 
于込的元素在 A 的边界上，它具有式 (11-232) 的形式。然后由 11.8 节的讨论易知，巧是 A 中 
最接近于尸 2 的 分布； 它也是 Y 中 tt 接近于心的分布。由 Sanov 定理，可计算相应的误差概率为 

a n ^ F [( A c )^2 (11-235) 

及 

fi n = r 2 (A)=2 - " u(p ** ,p » ) (11-236) 

对于贝叶斯情形，总误差概率为两类误差槪率的加权和， 

1 F<> + ^2'^ * ^^=2- " 1 11 (11-237) 

因为指数变化率取决于 M 坏的指数。由于 D ( P A || / V 随 A 递增， D ( P X II 尸 2 )随 A 是递减的，当 
| D ( PJ | P ,), D ( P A II P 2 )l 中的两者相等时，则恰好达到它们的最小值中的最大值。见图 11 -U 
所示。因此，可选取使得 

D ( P , II P 1 ) = D ( P , li P 2 ) (11-238) 

于是， CXPpi ^) 即是误差概率的最高可达指数，称为 Chemoff 信息。 □ 


385 



定义 D - = D ( P a * II = II P 2 〉 等价于标准的 Chemoff 信息定义， 

C ( P ,, F 2 ) A - mm log ( I ] P \( x ) P l 2 - x ( x )) (11-239) 

关于式 (11-231) 和式 (11-239) 的等价性证明，留给读¥作为练习。 
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下面简要介绍一下通常的对 Chemoff 信息界的推导过程。利用最大后验概率决策准则来最 
小化贝叶斯误差概率。对于最大后验概率准则，假设 Hi 对应的决策域 A 为 

A= l* : Srw >1 l (11 - 240) 

该结果集合表示假设的后验概率比假设》 2 的后验概率大。在此准则下，误差概率为 

Pe + (11-241) 

= + (11-242) 

K A 

=(11-243) 

对任意两个正数和 6, 有 

对任意的 (11-244) 

承接前面的等式，我们得 

巧= SminliijP ! ，冗2尸21 (11-245) 

<2(7 c i P 1 ) a (7 t 2 P 2 ) , - a (11-246) 

< SPiPj' A (11-247) 


对于一列 i . i . d . 观察样本， P k ( x ) = ,从而 

<-1 

P { e n) IT P\U)Pr A U) (11-248) 

i 

=^ 2 - x n ^p\(x t )pr A (^) (u-249) 

i 

<11 ^ P \ P\' X (11-250) 

*. 

= {^m- x y di - 251 ) 

其中式 （11-250) 由 SI 得 / 因此， 我们进一步有 

1 \ ogP { f n ) <\ og ^ P A l ( x ) P \ x U ) (11-252) 

n 


由于上式对任意的 0< A <1 均成立，所以，在 0< A < i 上取最小值，即可得到 Chemoff 信息界。 
于是，证明了误差概率指数不会比 a /^ fV ) 更佳。该指数的可达性可由定理 11.9.1 得到。 

可注意到，只要巧和巧非零，则贝叶斯误差指数是不依赖于〜和巧的实际取值的。从本质 
上说，对于大样本，由先验知识所产生的效应会消失。最优决策准则是选择具有最大后验概率的 
假设，对应于检验 

^Px(X lf X 2 t -,X n )^ 

7 T 2 P 2 ( X lf X 2 ,-, X fI )> 1 

对上式取对数并除以 n , 该检验可重新写成 

士 log 3 + 士？ 

其中，第二项趋于 0(6 || 尸 2 )或- D (巧 II / V 取决于真实分布为心或户2。而第一项趋于0,因 
而，由先验分布所产生的效应消失。 

最后，为完善对大偏差理论和假设检验的讨论，考虑关于条件极限定理的例子。 

例11.9.〗假定棒球联合总会的榨球选手的击球平均得分数为260,其标准偏差是15,而假 
定小俱乐部联合会的棒球选手的击球平均得分数为240,其标准偏差是15。现有来自某一俱乐部 
(俱乐部是随机选取的）的100名选手组成一支球队，发现该队的击球平均得分数超过250,因而 


(11-253) 

(11-254) 
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判定是棒球联合会的成员。但我们被告知这个判定是错误的，即这些选手是小俱乐部联合会的 
成员。对于这100名选手，我们可否知晓击球平均得分数的分布该是什么呢？从条件极限定理可 
知关于这些选手的击球平均得分数的分布的均值为250而标准偏差是15。为淸楚此事，将问题 
抽象如下。 

考虑关于两个高斯分布和 / 2 = ^(- l ， a 2 ) 间的检验情况，它们具有不同的均 
值但方差相同。如 11.8 节所讨论的，此情形下似然比检验等价于比较样本均值与阈值。贝叶斯 


检验是“若>0，则接受假设/== / r G 假定在检验中我们犯的是第一类错误(即接受/= 
J \， 但实际上/=/ 2 )。在已知犯错误的情形下，样本的条件分布怎样？ 

我们可能会猜测各种各样的可 能性： 


• 样本看起来如两个正态分布的混合。这似乎合理，但是不正确的。 

• 对所有的 /•, 尽管从条件上看好像近似为0,但这显然是极其不可能的。 

• 正确的答案可由条件极限定理给出。若真实分布为/ 2 ,而样本的型在集合 A 中，则条件 
分布接近 于广， 其 中尸为 A 中最接近于/ 2 的分布。由对称性，这等价于在公 


式 （11-232) 中令 A = 计算相应的分布，可得 




(11-255) 








dj 


(11-256) 

(11-257) 

(11-258) 


有趣的是，注意到条件分布是均值为0且方差与初始分布相同的正态分布。这让人感到奇怪，但 
的确 如此； 若我们将一正态总体误认为另一正态总体，则该总体的“形状”似乎看上去仍然是正态 


的，方差相同但均值不同。显然，如此的稀有事件不可能今古怪的观察数据产生。 

例 11.9.2( 大偏差理论与撖视球）考虑 ' 

一个形式非常简单的橄榄球比赛，其得分机 
制直接与贏得的码数相关。假定教练可在两 
种策略中 选择： 带球跑或传球。每种策略都 
有贏得码数的分布。例如，一般情形下，带 
球跑往往以极大的概率贏得较少的码数，而 
传球通常会以小概率嬴得较多的码数。分布 
实例如图 1 M 2 所示。 

在比赛开始时，教练运用能贏得最大的期望得分数的策略。假设在比赛将结束的几分钟里， 
一支球队以大比分处于领先地位。（可忽略起初的界外球和适应性防卫球。）因此，落后的球队只 
能靠运气才有可能贏得比赛 3 若存在可能贏得比赛所需的幸运机会，则可以假定该球队将是幸 



传球方式可得的码 ft 带球跑方式可得的码数 

图 11-12 带球跑或传球方式贏得码数的分布 


389 


390 
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运的，并依此继续进行比赛。那么，什么策略合适？ 

假设该球队仅剩下 n 次比赛，但必须贏得 Z 个码数，其中/远远大于每次比赛期望得分数的 
n 倍。该球队成功地贏得/个码数的概率是指数级 的小； 因此，可利用大偏差的结论及 Sanov 定 


理来计算这个事件的概率。精确讲，我们要计算 Sz ^ na 的概率，其中为相互独立的随机 
变量，且 Z , 的分布与所选取的策略相关。 ^ 


具体情形如图 1 M 3 所示。设 E 是满足约束条件的所有 
型构成的集合， 

£ = |P ： J^P(a)a^a\ (11-259) 

若匕表示始终都在传球所应的分布，则获胜的槪率为样 
本的型含于£这个事件的概率，由 Sanov 定理可知，此概率 

为 2 -册： UP ，， 其中 p ; 为£中最接近于込的分布。类似 
地，若教练始终使用带球跑策略，则获胜的概率为 
2 _ nD ( / Vll / y 。 然而，如果他将两种策略混合使用，结果会怎 
样？对于混合策略 P, = APj + ( 1 - A)P 2 , 获胜的概率 



llw ) 可能会比使用单纯的传球或单纯的带球跑策略而获胜的概率更人吗？ U ： 人有点惊奇 
的是，答案是肯定的，可用例子来说明。这给优先使用混合策略而非胡乱的防守提供了依据。 

本节以 Chemoff 给出的另一个不等式结束，它是马尔可夫不等式的一个特殊形式。称此不等 
式为 Chemoff 界 估计。 

引理 11.9.1 设 Y 为任意随机变量，少 (s) 为 Y 的矩母函数， 

少⑴ = £e ,y (11-260) 

则对任意的 5 > 0 9 

Pr( Y > a )< e - , a ^( s ) (11-261) 

于是 

Pr( Y^aXmine-^s) (11-262) 

证明： 将马尔可夫不等式应用于非负随机变 i 情形，即可得引理成立。 □ 


11.10 费希尔信息与 Cramer-Rao 不等式 


在统计估计中，一个标准的问题是根据抽自某一分布的样本数据如何确定该分布的参数。 
例如，设 U 2 , …， X n 为抽自的 i . i . d . 样本。假定要估计样本大小为”时的参数0是 
多少，可以使用许多关于这组数据的函数来估计心比如，可以利用第一个样本 Xi 。 尽管的 
期望值是 I 但显然使用更多的数据会获得更好的估计。先不妨猜测0的最佳估计是样本均值 

= 事实上，可以证明又„是一个最小均方误差无偏估计量。 

我们首先给出几个定义。令 l /( x ;0) l ，（96 0 表示一个带下标的密度函数族，即 

fUid)>o t \f(x ； d)dx = 1 ， v^e 0 

此处，0称为参數集。 

m 定义关于沒在样本量为《的估计是映射函数 T . Xn^So 

估计指关于参数值的逼近。因此，我们必须想办法评判逼近的好坏程度。我们称差值了-沒 
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为估计的误差，这里的误差是个随机变量 3 

定义关于参数沒的估计了(^ 2 ,…， XJ 的偏定义为估计的误差的期望值[即偏 等于仏 T 
(；^，乂 2 ，…，其中的下标沒表示取期望是相对于密度函数 /(•“) 而言的。若对于所有 
的 de @， 偏为0,则称它为无偏估计。即，无偏估计的期望值正好等于参数值。 

例 11.10.1 设 Xi , X 2 , …，为抽自 /U) = (l/A)e” /A ( ： r>0)W i.i.d. 样本，是一个服从 
指数分布的随机变量序列。 A 的估计量包括 Xi 或又„，它们均是无偏的。 

由定义知，偏是误差的期望值，而事实上，它等于0并不能保证误差以极大的概率是低的。 
因此，我们有必要考虑误差的某个损失函数。通常最受欢迎的损失函数是均方误差。一个好的 
估计 M 必须要求具有低的均方误差，并且当样本 M 趋于无穷大时，误差应该接近于0。这促使我 
们给出如下的 定义： 

定义称关于沒的估计丁 （ XpX 2 , …， X n ) 是依概率一致的，如果当时，依概率有 


m，x 2 ，“m 

一致性是一种可以期盼的渐近性质，但我们感兴趣的是小样本时也有该性质成立。对此，可 
以利用均方误差为尺度来衡《各种估计。 

定义称估计 7 VXHX 2, …，； U 优越于估计 T 2 ( Xi ， X 2 , …，; c „), 若对所有的心有 

E(T 1 (X l ,X 2f -,X fl )-^) 2 <E(7' 2 (X I ,X 2f -,X n )-^) 2 (11-263) 

由此自然会产生一个问题：是否存在0 的* 佳估计能够控制其他所有估计？为解决这个问题, 
我们得到了关于任意统计贵的均方误差的 Cram ^ RaD 下界。首先定义分布 /( x ; 们的得分函数，利 
用柯西-施瓦茨 (Canchy-Schwan:) 不等式珂证明关于任意无偏估计置的方差的 Cran^r-Rao 下界。 

定义得分 V 是个随机变»,定义为 


V = ^ln/(X;^) = 


hf 、 x ' e 、 

f(X;d) 


(11-264) 


其中 X 〜/ Ud )。 
得分的均值是 


EV 


~ J fU;6) 

^\j- e f(x',d)dx 
= f- d \nx ； d)dx 

= Tq 1 
= 0 


⑷ dr 


(11-265) 

(11-266) 

(11-267) 

(11-268) 

(11-269) 
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因此， E V 2 = var( V) Q 得分的方差具有特殊的重要意义。 

定义费希尔信息 J (幻是得分的方差 •• 

J(d) = E d [f 0 \nf(X;d)] 2 (H-270) 

若考虑抽自 /( a :; 約的《个随机变量 i . i . d . 样本 X U X 2 , …， X ”则有 

f(x l9 x 29 -,x n ;d) = fl fU i ； e) (11-271) 

f»l 

从而，总的得分函数为单个得分函数之和， 
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V ( X I , X 2 ,-, X n ) = ^ ln /( X 1 , X 2 ,-, X n ;^) 

(11-272) 

= 2 ^\ nf ( Xi ； d ) 

(11-273) 

= S V ( X .) 

• = I 

其中 V ( X ,) 独立同分布且均值为0。因而， n 个样本的费希尔信息为 

(11-274) 

J n ( d ) = E e ( j - d \ nf ( X x , X 2 t - 9 X n ； d )) 

(11-275) 

= E e V 2 ( X X 9 X 2 t - 9 X n ) 

(11-276) 

= ^(2 v ( x f -)) 2 

j ■通 

(11-277) 

= E £, V 2 ( X f ) 

(11-278) 

= nj (6) 

(11-279) 


由此可知， i.i.d •的 n 个样本的费希尔信息是单个样本的费希尔信息的 ”倍。 费希尔信息的策要 
意义可由如下定理充分体现。 

定理 II . IO . UCiBn ^ r - Rao 不等式）费希尔信息的倒数是麥數0的任何无偏估 计曼了 （ X )的 
均方误差的 下界： 


var ( T )> J(e) 

(11-280) 

证明： 设 V 为得分函数，了是估计撖。由柯西-施瓦茨不等式，可得 


( E e [( V - E e VHT - E e T )] ) 2 ^ E e ( V - E e V ) 2 E e ( T - E e T ) 2 

(11-281) 

由于： T 是无偏估计，所以对于任意心 均有 E e T = d 。 由式（11-269)知£ 0 ^ = 

0, 因而， K〆V - 

£ 〆 )（丁-仏 T ) = E e VT 。 再由定义得到， var ( V ) = J (^) 0 将这些条件代入式 （11-281 )，可得 

[ E ,( VT )] 2 <；(^) var ( T ) 

(11-282) 

而， 


£,( VT ) = j ^^ y - T ( x )/( x ;0 )dr 

(11-283) 

= \ f e fU ; d ) T ( x)dx 

(11-284) 

= f d \ f ( x ; d ) TU ) da : 

(11-285) 

= f^ T 

(11-286) 


(11-287) 
(11-288) 

对于具有良好性质的 f ( x ;0) 9 式 （11-285) 中的微分和积分号互换可利用控制收敛定理得到，而 
式 （11-287) 是由于估计童丁是无偏的。将此代人式01-282)，即得 

var(T)>j^ 


= 知 

=1 


此即关于无偏估计童的 Cram 6 r - Rao 不等式。 


(11-289) 

□ 
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通过基本上相同的讨论，可以证明对任意估计量 
. £( n ) 2 彡 - ( - H ) 2 十 b \( d ) (11-290) 

其中 b T (0) = E e T-0， 6' T (幻是 6 T (幻关于0的导数。此结论的证明留作本章末的习题。 

例 11.10.2 设 U 2 … ，尤为 i . i . d •〜 ATW 〉， j 2 已知。此时， J (幻=$。令： HA , 

X 2 ,-, X n ) = X n = ^- SX l , 则£ 〆 义一幻 2 = f =点。由于 尤达到 Cram ^ Rao 下界， 故X” 

为关于彡的最小方差无偏估计量。 

Cramk - Rao 不等式给出了关于所有无偏估计的关于方差的下界。当该下界达到时，称此估 
计是有效估计。 

定义称无偏估 if 童了是 有效的 ( effideiu ), 若它达到 CWr - RaD 下界[8卩，若^了) = ^]。 |396 

因此，费希尔信息芎以度量在当前的数据中含有关于6的“信息”世。它可给出由数据估计沒 
产生的误差的下界。然而，可能不存在一个估计量恰好达到这个下界。 

我们可以将费希尔信息的概念推广到多参数情形，此时，需要定义费希尔信息矩阵 J (们，其 
元*为 

J(f(0) = ^f(xid) j^\nf(x\0) j^\nf(x;0)dx (11-291) 

同时， Crem ^ r - Rao 不等式变成矩阵不等式， 

SW 1 ⑷ (11-292) 

其中 s 为关于参数0的一组无偏估计 a 的协方差矩阵， ssjm 表示矩阵的差2 ： -r 1 是非负定 
矩阵。我们不再给予多参数情形详细的证明，其基本思路是类似的。 

费希尔信息 /( 幻和 某些撤(如前面定义过的熵〉存在着一定的联系吗？注意，费希尔信息是 
针对以参数为指标的一族分布而定义的.与熵不同，它的定义针对所有的分布。 但对于 任何分 
布，如 /( x ), 总可以利用位 K 参数0将其参数化，从而定义关于分布族密度 /(:r - 約的费希尔 
信息。我们将'在 17.8 节更细致地阐述它们之间的关系，将证明当使用典型集的体积表述熵时， 

费希尔信息可以看成是典型集的表面积。而贽希尔信息与相对熵之间的进一步联系将在习题中 
进行说明。 _ _ _ • 

要点 

基本的恒等式 

C?-(x) = 2 " <D<p - ,0)4H<F - >) 

| T ( P ) I ^2 bH(P, 

Cr(T(F))^2" mDiPiQ> 

通用数据压缩 

pU ^-^ PilQ ) 对 任意的 Q 

其中 

D ( Pj 5 )10) = ^ min D ( PliQ ) (11-298) 

大偏差 ( Sanov 定理） 


(11-293) 

(11-294) 

(11 -295) 
(11-296) [397 

(11-297) 
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398 


IQ ) 


(11-299) 

(11-300) 


(11-301) 


( 11 •: 


Q"(E) = Cr(En^)«n + l) ^2-^ 

D ( P # II Q )= rmry )( P || Q ) 

若 £ 为它自身的闭包，则 

Q n (E)=2' nDiP ' iQ) 

相对熵的 A 界 

毕达哥拉斯定理 若£是由型构成的-.个凸集，分布 Q 豸五，且 P •达到 DW I : Q 〉 
minp e £ D ( P || Q ), 则对任意的 P €£， 有 

D ( P || Q )^ D ( P || P -) + D ( P - II Q ) 

条件极限定理 若义，乂 2 ,…，尤为 i . i.d •〜 Q ， 则 

Pr ( U ) 依槪率 
其中 P •使 IKP II Q ) 在所有上达到最小值。特别地， 


(11-303) 

(11-304) 




(11-305) 


奈曼-皮尔逊引理两个密度 Pi 和户2之间的烺优检验有如^形式的决 策域： “若 


y 广今…叫 〉 t ， 则接受尸二厂。” 

P 2 ( x 1 , x 2 .-% x >1 ) 

Chemoff-Stein 引理若 a n <€, 则放佳可达误差指数满足： 

A = min A 
A QAf " 
a <e 

舞 

iim~k)gft=-D(P 1 llP2) 

n — o » Tl 

Chemoff 倌 ft 贝叶斯误差概率的最佳可达指数为 

D * = D(Fr II P ,) = D ( P a - II P 2 ) 


(11-306) 


其中 


并由满足 

选取 A = A "。 

费希尔信息 


_ _ PUx)pm 

^ - E P \ MP ^( a ) 

•6 Y 

D(PJI Pi) = D(P a II P 2 ) 


(11-307) 


(11-308) 


(11-309) 


(11-310) 


J (设) =&[ 磊 In / U ; 设)] 
Cram^r-Rao 不等式 对于 0 的任意无偏估计董了 • 

£〆 丁 U ) D 2 = var ( 


(11-311) 


( li -312) 
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习题 


11.1 Chemoff-Stein 引理。 考虑两个假设 检验： 

Hi :/:/! 与 H 2 ：/=/ 2 j 399 

试求 D (/, || / 2 )，若 

( a ) / i ( x ) = N (0, t j 5 ),z = l ,2 o _ 

( b ) f i ( x ) = X i e -^ 9 x > 0 t i = l , 2o 

( c ) _ A (: r ) 为区间 [0, 1] 上的均匀密度函数，而/ 2 (* 2 ：)是 + 上的均匀密度函数，假 
定 0< a < l o 

( d ) 力对应于一枚均匀硬币，而/ 2 对应于两面都是人头的硬币。 

11.2 D (尸 || Q ) 与义 2 之间的关系。 证明在 D (尸 II (?) 关于 Q 的泰勒级数展开式中，第一项（的 
2倍)即 P 统计童 

V2 - y ( 尸 ( 工 )- Q( J )) 2 

^ QU ) 

于是， D ( P || Q ) = |^ + …。（提 示： § = 1 + 并将其对数函数展开）。 

11.3 通用码的误差指數。 速率为尺的通用信源码达到的误差概率为’ MQ> ，其中 
Q 为真实分布，而广使 D(P || Q ) 在所有满足 H ( P )> R 的 P 上达到 M 小值。 

( a ) 根据 Q 和 R 求 

( b ) 设 X 为二元随机 变量。 求信源概率分布是（^(工）(工€|0,1|)的区域，对此区域，速率 
R 对于通用信源码达到是充分的。 

11.4 顺序投射。 我们要证明将 （3 投射到7^中，然后将其投影0投射到 PiDPh 所得的投影 
与 Q 直接投影到中的投影相同。设卩》为 i 上满足 

^ p ( x ) = 1 (11-313) 

M 

D / i ( x )/ I | ( x )> a f , i = 1，2 ,…〆 (11-314) 


的所有概率密度函数构成的集合，而7> 2 为 A* 上满足 

= 1 (11-315) 

^ p ( x ) gj ( x )> p t9 _; = l，2，"，s (11-316) 画 

的所有概率密度函数所成之集。假定 Q 多： PiUPz, 设 P •使 D(P|| Q ) 在所有上 
达到最小值， /T 使 D(P II D) 在所有 ReViC \ V 2 上达到最小值。证明 iT 使 D(i? IIP*) 

在所有 R ^ V ^ CWz 上达到最小值。 

11.5 计數。设1=11,2,…， ml。 证明： 在一阶指数意义卩，当”充分大时，满足士 i)gU) 

71 .*1 

>a 的序列的个数近似等于2^ ,其中 

H" = max H(P) (11-317) 

p ： gp<. )«(.)>• 

11.6 有偏估计可能更佳。抽自 AT(/i，C7 2 ) 分布的”个数据样本 m， 考虑其户和 CT 2 的估计 
问题。 

(a) 证明X为 a / 的无偏估计童。 



( b ) 证明估计 M 


(11-318) 


s^IScx.-xj 2 

^ I 


是 ( T 2 的有偏估计量，而估计* 


s 2 „m = 


(11-319) 


是无偏的。 

( c ) 证明 S 2 „ 具有比史- i 更小的均方误差。说明有偏估计童会比无偏估计童“更佳' 
11.7 费希尔信息与相对熵。证明对于一族参数分布1办(0：)丨，有 


^ le ^ D{pdllp&) = ^ Hd) 


(11-320) 


11.8 费希尔信息的例子。分布族 AUM ^ R ) 的费希尔信息 J (0) 定义为 




求如下分布族的费希尔 信息： 

( a ) / 〆 ：!：）= 

(匕）/,(0：〉=灸- & 々0 0 

( c ) £ tf ($( X ) -的 Cramer-Rao F 界是什么？其中 $ U ) 为 （ a ) 和 （ b ) 情形关于沒的无偏 
估计敏。 

11.9 两条件独立分布族的联合 使费希 尔信息 倍增。 设玢（心，0： 2 )=力（:^>力（*1： 2 )， 试证明 
J K (e) = 2J f (d) 0 

11.10 联合分布与乘积分布。 考虑联合分布 Q ( u 〉， 其边际分布为 Q (* r ) 和 Q ( y )。 设£为 
所有这样的型，它们看上去与 Q 成为联合典 型的： 

E = \ P ( x , y ) : - ^ P ( x 9 y )\ ogQU ) - H ( X ) = 0 

- ^ P ( x , y )\ ogQ ( y )- H ( Y ) =0 

- 2尸(文，，)1°80(:， y ) 

-H(X,y) =01 (H-321) 

a ) 设 Qo (* rd ) 为 YxJ 上的另一分布。证明在 E 中最接近于 Q 0 的分布^具有形式 

(11-322) 

其中和 A 3 由满足约束条件而定。并说明该分布是惟一的。 

b ) 令 QoU j ) = QU ) Q (. v )。 证明： CKu ) 具有式 （11-322) 的形式且满足约束条件。 
于是， P m ( x , y ) = QU , y ), 即在£中最接近于乘积分布的分布是联合分布。 

11.11 存在偏项的 Cm _ •尺 oo 不 等式。 设 X〜 / Ud )， TU ) 为关于沒的估计量。 令 办 7 (0)= 
£,丁为估计量的偏。试证明 


FAT - + 妗⑻ 


(11-323) 


11.12 假设检验。 U 2 , …， X „ 为 i . i . d •〜 /> U ) C 考虑假设检验 H 2 :/> = p 2 。令 
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11.13 


11.14 


11.15 


11.16 



/ >i(x)=^ ^-,or = 0 和 




在约束条件 Pri 判定 HJH2 真•之下，求出 Prl 判定仏|叶 真1 关于％与 H 2 的假 
设检验的最佳误差指数。 

Sa _ 定理。对 Berx > um (< 7 ) 随机变量情形，证明 Sanov 定理的简单形式。 

令1在序列 X l 9 X 29 -, X m 中出现的比例为 

X n =丄2 足 01-324) 

n «-1 

由大数定理，当 w 足够大时，我们预料 Xn 接近于( 7 。 Sanov 定理 处理兄 1 远离 ( 7 的概率。 
特别地，如果， P > q >\, SarK > v 定理表明 

一 -^- logPr |( X | , X2 . ,,, » X n )： X If ^pl 

—/> log ^- + ( l -/>) log |^ 

= D((/),l - p ) II J - q )) (11-325) 

证明下面的 步骤： 

• Vr\(X x ,X 2 ^,X n ) ： X n >p\ < t 0 卜 W ⑴ - 326 ) 

• 证明 ：在敢 后一个等式右边的和式中的 》 大项正好是对应于 ^ = L ”/>」 的项。 

• 证明该项大约是2_〜。 

• 利用上面的步骤证明 Sanov 定理中槪率的上界。利用相似的讨论证明卜界，完成 
Sanov 定理的证明。 

Samn ;。 令 X 是独立同分布的且服从 N (0,( T 2 )。 

( a ) 依据 Pr |- J - Sx ?> a 2 ] 的行为，求出其指数。可以使用第一条原理（因为正态分布 
很漂亮)或者 Sanov 定理来做。 

( b ) 如果丄,此时的数据看似什么？即，使 WPlI Q ) 最小的尸•是什么？ 

^ 1*1 

计数状态。假设一个原子等槪率地取六种状态 X € ts ,,&,•••, s 6 l 。 观察”个独立且服从 
该均匀分布的原子 XpX 2 ，…， X „。 假设观察到状态 5 l 出现的频数是状态 s 2 出现频数的 
2 倍。 

( a ) 在一阶指数意义下，求出观察到此事件的槪率是多大？ 

( b ) 假设 n 足够大，求出第一个原子 Xi 在此观測下的条件分布。 

假设检验。令 U . I 为 i . i . d •〜 Mx )， J ： eU ,2, H 。 考虑两个 假设： 

H 0 ' p ( x ) = p 0 ( j ：) 与 H t ' p ( x )- pi ( x ) 

其中 pQ ( x )=[\)\ pv ( x ) = qp t ~\x = \,2^ - 
( a ) 求 D ( p 0 ll / > 1 )。 
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( b ) 令 PrlHol = +，并假设数据的最小误差概 


11.17 最 大似然估计。令爲(工)表示参变 M 沒6尺的密度参变最簇。令； ^， X 2 ，…，兄为独立同 
分布且服从 A (: c )。 那么函数 

4(?) = ln ( II / 5 ( x t )) 

404| 为熟知的对 数似然函数。 令外表示真参变 fifk 。 

( a ) 令对数似然的期望为 

= J ( lnn /.( x l )) n /./^) dx " 

证明 | . 

£ flo (/(- r ")) = (-/ i (/, o )- D (/, o ll/,)) W 

( b ) 证明对数似然的期望关于 0 的最大值在0= %处取得。 

11.18 大偏差。令 ；^, X 2 , …， X n 是独立同分布随机变 ft , 且为几何分布 

Pr|X = iti = p 4 ' , ( l'/)),ife = l f 2,- 
针对下面的情形，找出（在一阶指数意义下)好的 估计： 

(a〉Pr | 士 

( b ) Pr | X ! = k 

( c ) 当/> =如 a =4 时，计算 ( a ) 和 ( b )。 

11.19 费希尔信息的另一种表示。 用部分积分法证明 

J (0)=- E ^^ 

11.20 .斯特林近似值。 推导关于阶乘的斯特林近似值的一种弱 形式； 即，用积分的近似求和证 

明 

(f )”< ”！ )* (11-327) 

评判下面的步骤： 

405| ln ( w !) = ln ( i ) + ln ( n ) ^ lardr + Inn = ••- (11-328) 

以及 

In ( w ! ) = In ( r ) ^ | o lardr = -• (11-329) 

11.21 的漸近值。 利用习题 11.20 的简单近似 证明： 如果 々 = L ”/> J (即务是小于 
或者等于 nfi 的最大整数 >，则 

㈣ 士 log (: ) = - piogp - ( 1 - p ) Iog(l - p ) = H ( p ) (11-330) 

用 A (* = l , …， m ) 表示 m 个符号的概率分布（即 p ,>0 9 1>, = 1)。那么下面的极限值 


(11-327) 


(11-328) 


(11-329) 


(11-330) 


是多少？ 
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T log 


lnp i \\_np 2 y-[,np m . l \n 



- SLnpJ 


=丄 log ---- (11-331) 

Ln/>i」!Ln/>2」！”.Ln/> m -i」！（w - 2L”A」）！ 

> = 0 

11.22 累积差。令 U 2 , …，X” 为 i.i.d. — CMorhYbyy.hSi.i.d.-CMjO。 假设 X" 
与V"是相互独立的。求 Pr I tx, - 1； Y t > nt \ 在一阶指数意义下的表达式。当然， 
该答案可以保留参变奄形 式。" " 

11.23 大似然。令 U 2 ,”_，X n *U.d.〜Q(:r),i€il,2,"、ml, 且 P(:c) 为某概率分布函 
数。我们构造序列X"的对数似然比为 

1, P*(U 2 , …， X”） 1 P(X,) 

^cr^x^xV) = ^^ l0g QW 

并求超过某 一W 值的概率。特别地，（在一阶指数意义下 ，） 求 

:綠卜 ） 

答案里可能存在一个不确定的参变 M。 

11.24 洮合的费希尔信息。 设 / iU) 和 / 0 U) 是两个给定的概率密度，2是 Bernoulli (幻，其中沒 
是未知的。当2=1时， X - f x U ); 当2 = 0时， X - f 0 ( x)o 

(a) 找出被观察X的密度 /〃(x)。 

(b) 求费希尔信息 J (約。 

(c) 求0的无偏估计均方误差的 Cram6r-Rao 下界。 

(d) 你能给出一个0的无偏估计吗？ 

11.25 非均匀硬币。令 U,l 为 i.i.d . 〜 Q , 其中 

Q(々）= PrU, = 々）=(:)</(l-(7) m -*，々 = 0，l，2，."，m 

于是，兄为 i.i.d. ~Bemoulli( w ,g)。 证明当 时， 

Pr(x, = k I -J-EX,^a)-P # (^) 

其中尸•服从二项式分布 Bemoulli(m，A) (即 P'U )=(^) A *(1 - AT ' A 6 UUJ )。 找 
出这个 A 。 

11.26 条件极限分布 

(a) 如果 X!，X 2 , …是 Bemoulli(2/3), ” 是 4 的倍数 • 计算 

Prjx, = 1 士 SX, = 士| (11-332) 

的精确值。 

(b) 令卜1，0,1丨，；^，乂 2 ,…为I - 1,0, + 1|上的独立同分布序列，且为均匀分布。 
当 oo 时，求下面槪率的极限 

Pr|x 1 =+l|-^Ex5 = yI (11-333) 
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11.27 变分不等式。对 于正随机变童 X ，证明 

log £ P ( X ) = sup [ E Q ( logX )- D(Q IIP )] (11-334) 

其中， £ P ( X )= ，而 D ( Q || P )= I ； QU ) log ^ , 并且上确界遍取所有 Q 

( x )> 0 9 2 Q ( a :) = lo 只要检验如下极值足矣： 

；( Q ) = £ Q lnX - D ( Q || P ) + A ( SQ ( x ) - 1 ) 

11.28 型约束条件 

( a 〉 给出型 iV 的约束条件，使得样本方差 X 2 n -( X n ) 2 < a , 其中又 2 ” = 士= 

n .-I 

^S Xio 

( b ) 求出概率的衰减指数。可以保留答案为参数形式。 

11.29 单 纯形上的均匀分布。 下列哪种方法可以基于单纯形 = M 上的均 
匀分布生成一个样本？ 

( a ) 令 y , 为独立同分布序列且服从 [ o , i ] 上的均匀分布，取 x , = y,/t \。 

>■> 

( b ) 令 y , 为独立同分布序列且服从指数分布取 x , = y , 。 

( c ) (劈成 ri 块碎片)令为独立同分布序列且服从 [0，/ i 上的均匀分布， 
令 X ,为第 i 个区间的 民度。 

历史回顾 

型方法是由强典型性发展而来， Wolfowiu [566] 利用其中的某些思想证明了信道容坩定理。 
Csiszdr 和 K 6 ti er [149] 充分发展了这个方法，由此得到了信息论中的许多重要定理。 U .1 节中所 
描述的型方法是按照 Csiszdr 和 K 6 ner 的论述。相对熵的下界 A 也归功于 Csiszd r [138] ,库尔贝克 
408 [336]* Kempcrman [309]。 Csiszdr [ 141 ] 还利用型方法得到了 Sanov 定理 [455] 的一般化形式。 


第 12 章最大熵 


气体的温度与该气体中分子的平均动能相对应。在给定温度下，我们能对该气体的速度分 
布有多少了解呢？物理学告诉我们，该分布正好是给定温度下的最大熵分布，也就是著名的麦克 
斯韦-玻尔兹曼 ( Maxwell - Bolizmami ) 分布。最大熵分布对应于具有最多微观状态（各种气体的速 
度)数目的宏观状态(可由经验分布来刻画）。因而，在物理学中使用最大熵方法而得到的结果都 
是一类 AEP , 即所有微观状态都是等可能的。 

12.1 最大熵分布 

考虑下面的优化 问题： 求满足如下条件的所有槪率密度函数/的熵/ *(/) 的 ft 大值 

1. fU )> O t 当: r 在支撑集 S 的外部时，等号成立， 

2. \^(x)dx = 1 ( 12 - 1 ) 

3. | J '( x ) r i ( x)dx = a t ,对所有 l « m 。 

于是，/为一个定义在支撑集 S 上，满足一定的矩约束条件，…，的密度函数。 

方法 U 微积 分法） 微分熵 M /) 是定义在一个凸*上的凹函数。我们构造以下泛函 

J (/) =- Jyin /+ A 0 {/+ SAj / r ,- (12-2) 

由变分法，可以得到该泛函关于 /( i ) 的“导数”为 

= - in /( x ) - 1 + A 0 + S A , r ,(* r 〉 （12-3) 

令上式等于 0, 得到 ift 大化的密度函数的解析表达式 

f ( x ) = e V »^ Ar ,( x) f S (12-4) 

其中，…, A m 是要求 / 满足约束条件的待定系数。 

利用微积分知识只能建议给出熵达到最大时对应的密度函数所应具有的形式。为证明这样 
的密度函数的确使熵达到最大，蚵以求它的二阶变分。但使用信息不等式 II f )>0 t 问题将 
变得很简单。 

方法 2( 信息不等式） 若密度函数 g 满足约束条件（12-1)，而是形如式 (12-4) 的解，则0 
< D(g II /•)= - AU ) + A(r )。从而，对任何满足约束条件的密度函数 g , 均有 h ( g )< 
W ) 0 我们通过下面的定理证明。 

定理 12.1.1( 最大熵分布）设 r ( x ) = Mx ) = e v 2 v .(:> ， x € S , 其中 AoA ，…人是 
使 /* 满足约束条件 （12-1) 的待定系数。則 r 是所有满足约束条件（12-丨）的概率密度函数中惟 
-能够使得 W /) 最大化的概率密度函數。 

证明： 设 g 满足约朿条件 （12-1), 那么 

h ( g ) = - | s glng (12-5) 



=- J/ln 卢/ • 

(12-6) 

= -D(g||/')-J s glnr 

(12-7) 

迻 - J,hr 

(12-8) 

= -| s g ( A 0 + 以 r ,) 

(12-9) 

=>- ( A 0 + X 又 ',） 

(12-10) 

一 JW 

(12-11) 


(12-12) 


其中 ( a ) 是由相对熵的非负性得出的， （ b ) 可由广的定义直接看出， （ c ) 是由于 r 和 g 都满足约 
束条件而得到。注意， （ a ) 中等号成立当且仅当对于除一个0测集之外的所有: r , 有 fU ) = 
g ( x ) o 从而惟一性得到证明。 口 

该方法也适用于离散熵以及多变*分布情形。 

12.2 几个例子 

例 12.2 .U 溫度约束下的一维气体） 假定约束条件为£入= 0,且 EX 2 = a 2 。 此时最大熵分 
布的形式为 

/U) = e A ， V”〆 (12-13) 

为了找到适当的常系数首先可以看出该分布与正态分布具有相同的形式。因此，既满 
足约束条件又使熵 最大化 的密度函数为 Y (0,< x 2 ) 分布： 

/(x)= yfc e ^ (12 " 14) 

例 12.2.2( 骰子， 无约束）设 5=11,2,3,4,5,61,那么使得熵取锒大值的分布是均匀分布， 
即对任意: p (: r ) = +。 

例 12.2.3( 骰子，具有约束条件 EX=SiA = a ) 这是物理学家玻尔兹曼使用过的一个重要 
例子。假设掷 n 个骰子于桌上，所有出现的点数之和是 na 。 出现 i 点（/ = 1,2,…， 6) 的骰子的比 
例是多大？ 

回答该问题的方法之一就是计算这〃个骰子中有 n , 骰子出现: • 点的投掷方式数。共有 
( ^ 1种这样的方式。也就是说，由 n 6 ) 所决定的一个宏观状态对应于 

I H 1个微观状态，且每个微观状态的概率均为去。为了寻求最可能的宏观状态，我们 

\n l 9 n 2 r-,n 6 l o 

希望能够在对总点数约束的条件 

2 = na (12-15) 

«=1 

之下求出丨 穴 彳的最 大值。 

利用原始的斯特林近似公式，《! =(f 我们可得 




=ft(?r “ 2 -⑺ 

= eO …•令） (12-18) 

于是，在约束条件 (12-15) 之下求 ( ^ ) 的最大值几乎等价于在约束条件 = a 之下 

…，《6/ 

求…，/ >6) 的最大值。在此约束条件下，使用定理 12.1.1, 可以得出最大熵概率密度函 
数为 




(12-19) 


其中 a 是满足的待定参数。于是，最可能的宏观状态为 u /> r , 时2•，… ，《/ o , 并且我 
们期望有 <=72 〆 个骰子 出现! •点。 

在第11章中，我们给出推理以及近似的基本合理。事实上，我们不仅证明达到掖大熵的宏 
观状态是最有可能发生的，而且该状态也包含了几乎全部的槪率。例如，对于任何有理数《，当 
„-** oo 时， 

Pr| | ^ - p, # | < £,! = 1 ， 2,…，6 X] X, = na -*• 1 (12-20) 

沿若使得 rw 为一个整数列的子列上成立。 

例 12.2.4 设5= [ a ,6], 无其他约束条件。此时， W 大熵分布就是该区间上的均勻分布。 
例 12.2.5 设5=[0, + 00)且 £X = / i 。 则最大熵分布为 


/(:) = 士 d 


JT^O 


( 12 - 21 ) 


该问题有一个物理解释。考虑分子在大气中的商度 X 的分布。分子的平均势能是固定的，气体 
趋向在 £[ mgX ] 是固定的约束条件下使得熵 最大的 分布。这是一个指数分布，其密度函 数为： 

在实际中，大气的密度函数的确具有这种分布。 

例 12.2.6 设 S = (- oo , + oom£X = / i 。 那么，最大熵等于无穷，所以没有*大熵分布 
(考虑$•差越来越大的正态分布。） 

例 12.2.7 设 S = (-~,«>),KX = fli 且 EX 2 = d 2 。 则最大熵分布为 
例 12.2.8 设 S =7 e ”，£ X ^ = K f> , K «, j < n G 这是一个多元的例子，上述分析方法依然 
适用并且最大熵分布的形式为 

• f(x) = (12-22) 

由于指数二次型，不难看出它是一个0均值的多元正态分布。由于必须满足二阶矩约束条件，必 
然是一个以 K & 为协方差阵的多元正态分布，因此其密度函数为 


/( X ) 


(V2it) n \K\ 


(12-23) 


如第8章推导的那样，可以得到它的熵为 


/z(^„(0,/O) = ylc«(27re)"!K| 


(12-24) 




例 12.2.9 假定约束条件依然与例 12.2.8 —样，但仅对特定的例 
如， 对于沁 j ±2, 我们可能只知道此时，将式 (12-22) 与式 (12-23) 比较，能得到（/<•% = 
0(( i,»eAS 即当落在该约束集之外时，协方差阵的逆矩阵中的对应项是0)。 

12.3 奇异最大熵问题 

我们已经证明了在约束条件 

J s A ,( x )/( x)dr = a , (12-25) 

之下，最大熵分布是如下形式 

= (12-26) 

_如果存在满足约束条件 (12-25) 的参数 A c ,\, …,; 

我们现在考虑一个棘手的 问题： 没有满足约束条件 （12-25) 的参数 A ,。 虽然如此，“最大”熵 
仍然珂以求得。例如，在约束条件 

[°° /( x)Ar = 1 (12-27) 

J -OO 

xf { x)dx = a x (12-28) 

J -oo 

^ x 2 f ( x)dx = a 2 (12-29) 

= a 3 (12-30) 

之下，求最大熵问题。此时，只要 S 大嫡分布存在，它必为如下形式 

yXyrreVV W (12-31) 

但当 A 3 为非芩时，有 ]"=/= ~，从而密度函数不能标准化。所以 A 3 必须为0。而此时有叫个 

方程但只有三个变 tt , —般来说，这不可能选择到合适的常数。上述求最大熵的方法似乎已经失 
效了。 

方法失效的理由很 简单： 在这些约束条件下，熵有一个上确界，但不可能达到该上确界。考 
虑仅对一阶矩和二阶矩约束的问題，此时，例 12.2.1 的结果表明使得熵最大化的分布必是具有 
相应的矩的正态分布。如果再加上三阶矩约束，最大熵就不可能更大。那么到底有没有可能达 
到该最大熵呢？ • 

虽然不能达到，但可以任意接近它。考虑一个正态分布，当 x 取值很大时，对分布作个很小 
的“扰动”。得到新分布的各阶矩与原分布的各阶矩几乎相同，而改变最大的是三阶矩。我们甚 
至可以再添加新的扰动来抵消第一次扰动所引起的变化，使一阶矩和二阶矩恢复到原来的值。 
同时，通过适当选择扰动位置，珥以在新的分布的熵没有明显减少(相对正态分布的熵而言）的情 
况下，三阶矩可以取到任意值。利用该方法，可以任意接近于最大熵分布的上确界。我们概括为 

414] sup/i(/) = /j(AT(0 ， a 2 - af)) = +ln27re(a 2 - a;) (12-32) 

这个例子说明最大熵只能是 e 可达。 

12.4 谱估计 

假设 IX ,. I 是一个0均值的平稳随机过程，定义它的自相关函数为 
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K ( k ) 二 EXX ” (12-33) 

0均值过程的自相关函数的傅里叶变换是该过程的功率谱密度函数 S ( A )： 

CO 

S ( A ) = S R ( m ) e ' ,mX 9 - jt < A < tt (12-34) 

-OO 

其中 f = / ry 。 由于功率谱密度函数揭示过程的结构，所以通过过程样本直接估计功率谱 
密度是非常实用的。 

有很多种方法可以估计功率谱，但最简单的方式是通过取长度为72的样本数据的样本平均 
来估计自相关函数， 

fHk ) = ^4^ £ 02*35) 

如果我们利用样本自相关函数 /?(•) 的所有值来计算功率谫，那么对于充分大的71,利用公式 
(12-34) 所得到 的功率谱的估计其实并不收敛于真实的功率谱。从而，该方法称为 周期图方法， 

极少使用。其理由之-是，周期图方法，利用观测数据估计自相关函数时会有不同的精度。对于 
较小的 H 称为 时滞) 所作的估计是基于较大的样本童，而随者 々增 大时，使用到的样本越来越 
少。所以，只有对于较小的 I 估计才是较准确的。该方法可以修正为，对于较小的々时用估计 
值作为其自相关系数，而对于较大的々，令它的自相关系数为0。但由亍存在零自相关的突变， 

这样做会带入人为的因索。为此，提出了各种各样的加窗处理方案，旨在平》这种突变。但是， 

加窗处理不仅降低了频谱的分辨率，而且会导致负功率谱估计。 

20世纪60年代后期，正当研究谱佔计在地球物理学中的应用问题时， Bui ^ 提出了另外一种 
方法。该方法不是令大步长的自相关系数为0,而是取为在对数据作最少的假设之下可以得到的_ 
值（比如，取使过程的熵率 M 大化的数 值）。 这与 Jaynes [143] 中所消晰论述的敁大熵原理一致。 

Burg 假设过程是平稳高斯的， 发 现了满足一定的自相关约束条件下使熵敢大化的过程就是适当 
阶的自回归高斯过程。在某些应用中，可以假定一个自回归模型作为数据的底过程，该方法已被 
证明在确定模型的参数时很有用（例如，语音中的线性可預测编码）。该方法（最 大熵方 法或者 
Burg 方法) 广泛用来估计谱密度。在 12.6 节中证明 Burg 定理。 

12.5 高斯过程的熵率 

在第8章中我们定义了连续型随机变锺的微分熵。现在可以将熵率的定义推广到实值随机 
过程。 

定义 设 IX ,|,足€尺为一个随机过程，如果下面极限存在，那么该过程的微 分熵率 定义为 

闕= lin / ( Xl ， X ? ，…， (12-36) 

n —® n 

与离散情形相同，可以证明平稳过程的上述极限是存在的，且可以用两种形式表示 

h (^)= Um MX " 么 d ) (12-37) 

嗛―《 n 

= \\ mh { X n I X ,,-! (12-38) 

对于平稳髙斯随机过程，我们有 

/ i ( X 1 , X 2 ,-, X n ) = Ylog (27 re ) w lfC u) l (12-39) 

其中协方差矩阵 K ⑷是第 一行元素为尺 (0), K (1), …， RU -1) 的特普利茨矩阵。于是 K [ n) = 
尺（丨/-)|) = £(；(,-£欠,)（；^-£；^)。当 《 — oo 时，该协方差矩阵的特征值的包络存在且正好_ 



是该随机过程的功率谱密度 函数。 其实，科尔莫戈罗夫已经证明了平稳高斯随机过程的熵率可 
以表示为 

h { X ) = -ylog27re + IogS(A)cU (12-40) 

熵率又可以表示为由于随机过程是高斯的，所以条件分布依然是髙斯 
的，从而其条件熵率为其中是在已知无穷过去的条件下对的最佳估计的误差 
的方差。于是 

厶=点2期 (1241) 

其中由式 (12-40) 给出。至此，在已知无穷过去条件下，熵率对应着该过程的一个样本的最 
佳估计的最小均方差。 

12.6 Burg 最大熵定理 

定理 12.6.1 满足如下约束条件 

EX i X^ k = a kt k ^0 A,-,P 对所有的 
的最大熵率随机过程 iX,l 必是如下形式的/>阶高斯-马尔可夫过程 

X, = - ^ akXi-k + Zi 
*•1 

其中 Z, 为 i.i.d《A/"(0，<y 2 )， 而 q,a 2 , …， a p ,<y 2 是满足条件 （12-42) 的待定参数。 

注释 在该定理中，我们并没有假设过程IX, I是 U) 零均值过程，或者 (b) 高斯过程，或者 (C) 
宽平稳过程。 

证 明：设 X lt X 2 , …， X ” 是满足约束条件 （12-42) 的随机过程，令 u 2 , …厶 为一个与 X lt 
X 2 ，…,具有相同协方差矩阵的高斯过程。此时，由于多元正态分布满足协方差约束的所有随 
机向 M 的熵达到最大值，根据链式法则以及加人条件可以减小熵的 事实， 我们得到 

h ( X l 9 X 2 t - t X n Xh ( Z l 9 Z 2 ,- t Zn ) 02-44) 

= hUi , …， z p )+ t ^ h(Zi I U -2 , …， ZO (12-45) 

< •声 +1 

< E h ( Z { I H -2, …， Z — p ) (12-46) 

接下来，定义一个阶高斯•马尔可夫过程使得它与/^心,…，乙具有直到/>阶 
的相同的分布。（该过程的存在性利用 Yde^Walker 方程立即可证。）此时，由于 6(2, 12,+ 
乙_ 2 ,”•，乙 - p ) 仅与/> 阶分布有关，于是， / ? (ZjZ I - lf Z t - 2 ,--, Z l - p ) = / I ( Z ； | ZV - i > 2；- 2 ,---, 
于是承接前面的不等式，我们得到 

/ i ( X 1 , X 2 f -, X n )</ i ( Z 1 ,-, Z ; ,)+ I H 2 , …，乙-声) (12-47) 

=/ l ( Z \,-,2；)+ ih { Z \ I U :- 2 ，…, Z :_ p ) (12-48) 

= MZW ' Z'J ’丨 (12-49) 

上述的最后等式利用了过程 itl 的 /> 阶马尔可夫性。两边同除以”，并取极限，可得 

丄 A(U 2 , … ，丄 AUW'O/T 

n Ti 


(12-42) 

(12-43) 


其中 


(12-50) 


A* = 


(12-51) 


该值是该髙斯-马尔可夫过程的熵率。因而，满足约束条件的最大熵率随机过程为一个满足约束 
条件的/>阶高斯-马尔可夫过程。 □ 

该证明过程的精 髄是： 对于任何一个随机过程的有限片段的熵，必有一个高斯随机过程的片 
段与它具有相同的协方差结构，而对应的熵大于原来片段的熵。该原始片段的熵其实可以被一 
个满足已知协方差约束的极小阶高斯-马尔可夫过程的熵来控制。这样的过程不仅存在，而且利 
用 Yule Walker 方程的手段可以获得一个便捷形式，具体如下。 

注意参数 ai , a 2 , …， flp 和 a 2 的 选取： 给定自相关序列尺 (0), R (1), …， K ( p ), 是否存在具有 
这些协方差的/>阶高斯-马尔可夫过程？假定一个式 (12-43) 形式的过程，我们能否选择一组参数 
a ,, 满足约束条件？将式 (12-43) 两边同乘 X ,-/之后取期望，注意（自相关函数的关系式) = 
R (- kh 可得 

R (0) =- iakR (- k )^< j 2 (12-52) 


以及 


R ( l ) 


= - akR {I 一 


, 2 ,- 


(12-53) 


这就是所谓的 Yule Walker 方程组，共有/> + 1 个方程怜有/> + 1 个未知 M …，^，…，^，^。因 
此，我们可以通过协方差解出过程中的这些参数。 

利用一些快速的算法比如 Levinson 算法和 Durbin 算法 [433] ,根据方程的特殊结构和协方差 
数据很有效地将参数 q ，〜，…, 心求 解出来（为了记号一致，设 〜 =1 。）。 Yu^Walker 方程的方 
法不仅提供计算参数 七，七 ，… ，心和 ex 2 的方便箅法，也揭示了当时滞超过了 p 之后自相关函数 
的行为特征。大时滞的自相关函数是所有时滞不超过的自相关系数值的一种延拓。这些值称 
为自相关函数的 Yu^Walkei ■延拓。可以#出，最大熵过程的功率谱为 


- 7T^ A ^ 7T 


(12-55) 


S(A) = D R(m)e^ (12-54) 

= -- ， -7T<A<7r (12-55) 

11+ I 2 

这是在约束条件尺(0)，尺（1),…， /?( p ) 之下最大熵的谐密度。 

伹是，如果仅求/>阶髙斯-马尔科夫过程的熵率，那么，可以不计算所有七而直接得到它。 
令为该过程的自相关矩阵(该矩阵的第一行为尺 (0), i ?( l ), …，尺（/>))。对于该过程，熵率等 
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/!* =/ l (X p |X p - 1 ,-,X 0 ) = /i(Xo ， -,Xp)-/i(X 0 ,-,X /> . 1 ) 
= ^\og(2ne) p * l \K p \ - +log(27re) / 1 I 

1, x \K p \ 

= T iog (2 ^) ]7 ^ T 


(12-56) 

(12-57) 


(12-58) 


在处理实际问题时，一般先得到一个样本序列…， X „， 通过该数据，将自相关函数估 
计出来。一个重要的问题是，究竟应该考虑多少个自相关步长？换言之，最佳的/>应该是多少？ 
从逻辑上讲，漂亮的方法是选择合适的/)，使对于数据的两步骤描述的总描述长度最小。该方法 
是由 Rissanen [442, 447] 和 Bam > n [33] 分别提出的，很接近科尔莫戈罗夫复杂度的思想。 
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要点 

最大*分布设/为槪率密度函败且满足如下约束条件 

| = a：j 对 1 < m (12-59) 

令 ru ) = AU ) = e v ^) fj ： es , 再选择 A 0 , …人使得 / •满足式 (12-59), 那么，在所 

有满足这些约朿条件的密度函数/中，/•是惟一使得 M /) 达到最大值的分报函数。 

最大供谱密度估计一个随机过程的熵率在自相关约束条件尺(0)，尺（1)，…，只 （/>) 之下可 
以被满足相同约束条件的 p 阶0均值的离斯-马尔可夫过程最大化，那么最大熵率是 

r 如->岛 （謂 

且最大熵谱密度为 

S(A) = - -r- - (12-61) 

I 1 + I 2 

k^i 


习题 

12.1 


12.2 


12.3 


12.4 


岡 


最大燏。在 x > 0 , EX = ai ，£：lriX = fl 2 的条件下，求达到 M 大熵的密度函数/。即，在约 

束条件 JV(:)dr = fl ^ OruO/Wdr = fl 2 之下，求 maxi - | / In / I , 其中积分区间是 0 < 

< r <+°°。 求得的密度函数 W 何分布族？ 

约束 P 下的最小相对熵 D ( P || C »。 欲求得满足约束条件 

SP(x) 沁 U> = a,，i = l，2，" 

的离敗概率密度函数 P ( x ),： r € 的参数形式），使得相对熵 II Q ) 关于所有 

满足刃尸( 1 )尽,（ 1 ) = «,<| = 1 ， 2 ,-)的尸达到敁小。 

( a ) 使用拉格朗日乘子法可猜测 

P m ( x ) = Q(x)4f^* <x)+A * (12-62) 

如果存在满足关于 a , 的约束条件的就酊以保证 M 小化。这是约束条件 卜的 最大熵 
分布定理的推广。 

(b) 验证广的确使得相对熵 D ( P \\ Q) 达到最小。 

最大熵过程。求满足如下约束条件的最大熵率随机过程丨兄丨 0000 : 

( a ) £ X ? = 1 ，* = 1 ， 2 , … 

(b) 吹=1，£以,”=如| = 1，2，" 

( c ) 对于 ( a ) 与 ( b ) 中的过程，求出其最大俄频谱。 

已知边际分布的最大熵问題，边际分布如下表的最大熵分布 P (* r ，： y ) 是什么？ 

1 
2 
I 





提示： 可以猜测并验证更一般的结果。 

12.5 具有固定边际分布的过程。 考虑固定的成对边际密度 

的全体密度函数。证明具有这些边际分布的最大熵过程是具有如此边际分布的一阶（可能 
随时间变化的）马尔可夫过程。并确定最大化的分布的表达式。 

12.6 每一个密度函数均是最大熵密度。 设 / o (: r ) 为一个给定的密度函数。已知函数 r (: r ), 假 

设 & U ) 是满足 J / U ) rU)dr = a 的全体/中使 M /) 最大化的密度函数。现在令 rU ) 
= ln / 0 ( x ) o 证明可以选取适当的 a = a u , 使得 g a U > = / o (: r )。 于是， / o ( x ) 是在约束条 

件 J / V/q =叫之下的 M 大姻 j 密度 0 

12.7 均方 误差。 令 lX , l / V ^ S £ X#,o = R 4 J =0, lr "， P 。 考虑； ^的线性预测，即 

又” = 2厶 〆” -i 
^•1 

假定，求 

max min £( X „ - X „) 2 
a/) 6 

其中，最小值取自所有的线性预测 b ， 最大值取自所有满足尺0,的密度函数/。 

12.8 最大《 特征 函数。 在关于特征 函数少 U )= 的约束条件下，求 巌 大熵密度函 

J 0 

数 /( x ), 0< x < ao 答案只能给出参数形式。 

( a ) 在特定点 “ 0 ,求满足 \ a f ( x ) cos ( u 0 x)dx = a 的最大 熵密度/(工)。 

J o 

( b ) 求满足 [ V (: r ) si n U 0J ：)cLr = /?的 fi 大熵密度八 

( c ) 已知特征函数在特定点叫的值少 ( 《 0 )，求最大熵密度函数 /( J ：)(0<; r < fl) o 

( d ) 当 a = ~ 时会有什么情况发生？ 

12.9 最大燏过程 

( a ) 求出对任意的/,均满足 P r | JV , = X , 4 l l =| 的最大熵率二值随机过程 
|0 ,lle 

( b ) 最大熵率是多少？ 

12.10 和的最大熵。 令7=：^ +久 2 ,分别 根据 &与乂 2 的条件求出在约束条件卜厂，以 2 2 
=尸 2 下 Y 的最大熵密度。其中，&与久 2 满足下列条件： 

( a ) 若 X 、与 X 2 相互独立。 

( b ) 若:^与；^相互相关。 

( c ) 证明 U )。 

12.11 马尔可夫链的最大熵 。 令 IX , | 是一个平稳的马尔可夫链11,2,31。令 /( X n ; X n + 2 ) 
= 0 ，V Wo 

( a ) 满足此约束的最大熵率过程是什么？ 

( b ) 对于给定的值 a , 0< a < log 3, 如果 I ( X n ; X n , 2 ) = Q 9 Vn , 会怎样？ 


的鍛大 熵密度/( X ). 
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12.12 预测误差的熵界。 令 IXJ 是一个实值随机过程，而 X „ + i = £ lX „ + 1 IXM 。 因此，条件均 
值足 是依赖前面72个变量; T 的随机变量。这里，足是 X „ + 1 的最小均方差准则下 
基于历史 X "的预测值。 

( a ) 用条件微分熵 / zU „ M |； T ) 给出条件方差 £1£|( X „ + 1 - 总 + 1 ) 2 |：^|丨的下界。 

( b ) 当 1 XJ 是一个髙斯随机过程时，等式成立吗？ 

12.13 最大燏率。 设 IX,I 是字符集10，1|上的随机过程且出现00序列的概率为0。那么，该过 
程的最大熵率是多少？ 

12.14 最大熵 

( a ) 满足下面两个条件 •• 

EX 8 = a f EX' 6 = b 
的最大熵密度 /( or ) 的参数形式是什么？ 

( b ) 满足条件 £( X 8 + X l6 ) = a + 6 的最大熵密度 /( x ) 的参数形式又是什么？ 

(c) 哪个熵更大？ 

12.15 最 大焫。求满足拉普拉斯变换条件 

J/(x)e" x dr = a 

的撥大熵密度 /( Z ) 的参数形式。并给出参数的取值范围。 

12.16 最大熇过程。 考虑随机过程集合 1 X , I , X ,€ 尺。 满足 

i?o = EX? = 1, R \ = EXjX,- ♦ 1 = " 2 ^ 

求最大熵率。 

12.17 二元最 大焫。 考虑一个 二值随 机过程 IX , I , X ,€|- l , + l |, 且 


12.15 




( a ) 求满足这些条件的 M 大熵过程。 

( b ) 熵率是多少？ 

( c ) 是否有伯努利过程满足这些条件？ 


12.18 最大媒。在能 ■约束 爪 II V || 2 + mgZ ) = £ 0 T , 最大化 M 2, V ,, V y , V z )。 证明 


得到的分布满足 


£( ym || V || 2 )=-| e 0 EmgZ = jE ( 


因此，不考虑强度 g 时，能量的^•储存在势能场中 


12.19 熵率 

( a ) 求出满足 EX 卜 1 ，£；^, +2 =^，! = 1，2，一的最大熵率随机过程％1 

( b ) 最大熵率为多少？ 

( c ) 这个过程的£尤足 + 1 是多少？ 

12.20 最小期望值 

( a ) 满足下面三个条件 
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( i ) / U 卜 0， Vx <0 

( ii ) [ f ( x)dx = 1 
J -oo 

( iii ) h ( f ) = h 

的所有的概率密度函数 /(： r ) 上求的最小值。 

( b ) 若条件 ( i ) 替换为 /( or ) =0, 求的最小值。 

历史回顾 

最大熵原理是19世纪在统计力学领域中产生的， JaynesUQW 的工作拓宽了其用途 ， Burg 
[80] 又将其应用于谱估计领域。而给出 Burg 定理的信息论方法的证明者则是 Choi 和 Cbver [ 98]。 
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本章我们讨论通用信源编码的基本知识。首先给出最小最大遗憾 (minimax regret ) 数据压缩 
的定义，然后证明通用性的描述成本为包含所有信源分布的相对熵球的信息半径。最小最大定 
理表明，这个半径为给定信源分布后的相应信道的信道容置。算术码的优势体现在对于信源分 
布使用，而这种分布玎以通过走马观花地学习得到。最后，给出单序列压缩的定义，并通过一系 
列的 Lempel - Ziv 解析算法可以达到这个压缩。 

在第5章，我们曾介绍过如何获得信源的最简洁表示的问题，并证明了任何惟一可译码的期 
望长度都以它的熵为下界。同时也证明了如果已知信源的概率分布，就可以利用赫夫曼算法构 
造出这个概率分布的最优码(具有最小期望长度）。 

然而在实际中，对于多数情形，我们并不知道信源服从的概率分布，因而也就不能直接应用 
第5章中的方法。反之，我们所知道的仅是-•簇分布。一个可行的办法是等观察完所有的数据 
后，从数据中估计出这个分布，并利用该分布去构造最优码，然后再回到起点，利用构造出的编 
码去压缩数据。当数据 tt 相当少的时候，这样的两阶段程序才在实际中有一定的应用。但是，实 
际情形往往使得我们用两阶段对数据进行处理变得不可行，因而对于数据压缩，很有必要设计一 
个流程(或称在线)算法，它能够“学习”数据的槪率分布，并用这个分布去压缩即将出现的数据。 
本章我们将说明存在这样的算法，而且对一簇分布中的任何分布都能表现得很好。 

至于其他情形，也就是说完全不知道数据的概率分布，所能知道的仅是单个结果序列。例 
如，文本和音乐数据就是这样的信源。至此，大家会问，对这样的序列我们能够压缩得多好？如 
果在箅法中不加人任何的限制，我们会得到 一个奄 无意义的答案 •. 总是存在一个函数，可将-个 
特定的序列压缩成丨比特，而其他每个序列得不到任何压缩。显然，该函数对数据是“过拟合” 
的。尽管如此，如果与伯努利分布或々阶马尔可夫过程的最优码字匹配作个比较，我们就能得到 
许多有趣的结果，它们在许多方面与通过概率或平均情形分析所得到的结论非常类似。要解决单 
序列的可压缩性问题最终得归结于序列的科尔莫戈罗夫复杂度，这个问题将在第14章中讨论。 

本章开始，我们将信源编码问题看成一个游戏，编码者选择一个码，试图最小化表示的平均 
长度，同时自然地会选取信源序列上的一个分布。这个游戏具有一个同信道容量相关的值，而该 
信道的转移矩阵的行就是信源序列的吋能分布。然后讨论在给定已知或“估计”分布下的信源序 
列的编码算法。特别地，我们描述算法编码，它是 5.9 节中允许信源符字符序列增贵式编码和译 
码的 Shannon - FanoElias 编码的推广 o 

然后，我们讨论一类自适应字典式压缩算法中的两个基本版本，这基于 Ziv 和 Lempel 的文章 
[603, 604], 称为 Lempel - Ziv 算法。对于这些算法，我们给出渐近最优性的证明，由此表明在界 
限方面，它们能达到任何平稳遍历信源的熵率。在第16章，我们将通用性的概念推广到股票市 
场中的投资理论，并阐述类似于数据压缩通用方法的在线投资组合选择程序。 

13.1 通用码与信道容量 

假定随机变量 X 服从分布族中的某个分布，其中参数11,2 ，…， mi 未知。我们要找 
到该信源的一个有效码。 
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由第5章的结论可知，如果知道心能构造出码长为 /(： r 〉 = log 的码，其平均码长等 
于鸿 U ) =- YiPeU )\ ogp e ( x ). 这是我们最为希望的结果。我们都知道，在期望长度上， L ( x ) 

需为整数的代价 k 多是1比特，因而为方便起见，本节叙述中，我们忽略/(工）需为整数的限制。 
由此， 

^£ p < [/( X )] = E p # [ log ^ o ] = H (/, £? ) (13-1) 

然而，如果我们并不知道真实分布办，但同时希望得到同样有效的编码，问题该如何处理？ 
这时，如果使用的码的码长为 / U ), 相应的槪率为 = 我们定义码的冗余度为编码 

的期望长度与期望长度的下界 之差： 

R ( Pe ，0 = E Pf [ HX )]- E .^ log ^ o ] (13-2) 

= (工 )-(13-3) 
=^> 9 U )( log 土 - log ^) (13-4) 

=(13-5) 

= D ( p e \\ q ) (13-6) 

其中为对应于码字长度是 / u ) 的分布。 

无论真实分布办如何，我们总希望找到一个码，能始终表现得很好，由此，我们定义 最小最 
大冗余度 (minimax redundancy ) 的概念如下 

R ' - min m & xR ( p Q , q ) = irnn maxD ( p e II g 〉(13-7) 

当分布 9 位于包含所有分 布办的 信息球的“中心”时，上 
述 ft 小最大冗余度就能达到。也就是说，这时9到任何分布办 
的 M 大距离得到了最小化(图13-1)。 

为求得分布 (7, 使它在相对熵意义下尽可能与所有可能的 
办接近，考虑如下的 信道： 

图13-丨包含所有办的 
最小半径信息球 

(13-8) 


对于信道的转移矩阵，它的行等于信源的可能分布办。可以证明，最小最大冗余 
度 R •等于该信道的 容*, 且达到信道容量时的输人分布导出该信道的输出分布，即是此 时的最 
优码分布。信道容最为 

C = max /(^; X ) = maxX ] , r (^)/ > 5 ( ：r )^ 0 K ^(^-) (13-9) 

其中 

g n (x) = ^n(6)p e (x) (13-10) 
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下面的定理体现了 1 T 和 C 的等 价性： 

定理 13.1.1 (Gallager[229], Ryabko[450]) 设信道 / 的各行分别为 PuPh … ， Pm 、 
_ 则它的容量为 

4301 C = R m = min maxD ( p 0 II g ) (13-11) 

其中，达到式 (13-11) 中最小值时的分布 g 为 i 到信 道容摄 时的输入分布7^ ( 幻所导出的输出分 
布 (?•(：)•• 

q * ( x ) = q n '( x ) = ( d ) p e ( x ) 

证明： 设 tt(0) 为 0€U,2 ， … ， ml 上的输入分布，导出的输出分布 为〜： 

_ 

(Qn)j = 

其中 Pn = Pe ( x 、， e = i，x = j 。 对输出端上的任意^布心有 

K(o ； x) = 2 

=II q K ) 

= S^,>*og^ + S^log(5- 
= - 

= - D ( q K II q ) 

i.s 

=II q ) - D ( q K || (?) 

i 

< II Q ) 

其中，对于所有 9, 当且仅当9 = 〜等 4成立。于是，对任意的 (/, 

43 l ] A IU ) > Yj ^ P ( P ， II Qn ) 

所以， . • 

I n ( diX ) = min^JTjDCA II (/) 

且当 7 = ❼时达到最小值。因此，与转移矩阵的 所有行 的平均距离达到最小化时的输出分布为由 
信道导出的输出分布(引理10.8.1)。 

此时，信道容 M 珂写为 

C = maxI K (6; X ) (13-24) 

= max min X kD ( t )； II 9) (13-25) 

现在，我们需要应用博弈论中的一个基本定理，即，对¥任意的连续函数 /(o：,：y), 工 
如果 /(a：,：y) 关于I为凸而关于: y 为凹，且为紧凸集，那么 

min r^x f ( x t y ) = nim/(x,>») (13-26) 

最小最大定理的证明可参见 [305,392 ]。 

根据相对熵的凸性(定理2.7.2)， S^(A II 9) 关于9为凸，而关于 兀为凹 ，因此 


(13-12) 

(13-13) 

(13-14) 

(13-15) 

(13-16) 

(13-17) 

(13-18) 

(13-19) 

(13-20) 

(13-21) 

(13-22) 

(13-23) 
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C = max min 7 rJ )( \\ q ) (13-27) 

* « i 

=min max 2^( A H 9) (13-28) 

=min maxD ( />, II g ) (13-29) 

其中最后一个等式的成立，是在式 (13-28 9 ) 中 i 将全部权重陚给下标 《•, 并最大化 D(A II 9)，从 
而获得最大值。因此，也可以得到 (?*=<?,• c 至此，完成定理的证明。 □ 

由此，从0到 X 的信道的信道容量为信源编码中的最小最大期望冗余度。 

例 13.1.1 考虑义=11,2,31, 0只取1和2这两个值，并且相应的分布为/>! = (1 - a , a ,0) 
和 /> 2 = (0， a , l - a )。 现在欲编码来自义的一个字符序列，但并不知道分布是纪还是/>2。上面 
的讨论表明，最坏情形下的最优码码长对应的分布与/^和/> 2 都具有极小的相对熵距离，即两个 

分布的中点。若使用分布9= 我们得到的冗余度为 

D(pi || q) = D(p 2 II q) = (l-a)\og + alog f" +0=1 ~ a (13-30) 

转移概率矩阵的行等于/^和化的信道等价于擦除信道(见 7.1. 5节），且容易计算出该信道的容 
量为 ( l - a ), 并当输入端是均匀分布时达到该容最，对于达到容 M 的瑜入分布，相应的输出分布 

(即等同于上述分布(7)。因此，如果并不知道这类信源的分布，编码时就使用 


为 I 2 ， u ， 2 

而非仏或/^，同时付出的代价为 1- a 比特/信源字符，它在理想的熵界之上。 

13.2 二元序列的通用编码 

现在考虑编码二元信源: r ”€ 10,11”的一个重要的特殊情形。对于的概率分 
布，我们不做任何假定。 

先来估计的大小。依据 Wozemraft 和 Rciffen [567] (见引理 17.5.1 的证明），对于 k^O 
或 n , 有 

《)2— (i3 - 3i) 
首先，我们给出一个脱机算法以描述序列：计算出序列中1的个数，并且当已经看到整个序 
列后，发送序列的两阶段描述。第一阶段为序列中1的数目，即 A = Sx , (使用 「logU + 1)1 比 

I 

特），第二阶段是在所有具有是个1的序列中这个序列的下标(使用比特由此，该两 
阶段描述需要的总长度为 

(13-32) 
3 (13-33) 

(13-34) 


+ 2 


/ U n )< log (« + l ) + log (:) 

<logn + nH (^-)- yIog W - ylogjTT ^- 1 ^ 11 ) 

=nH (^) + i logn_ i log ( ,r ^ ? T A ) +3 

于是，描述序列的代价大约等于 | logn 比特，与对应于的伯努利分布的香农码的最优代价 

相比，上述描述的代价更大。当々=0或々 = 72时，最后一项无界，因此，该情形时，上述给出的 
界无意义（当& = 0或走= ”时， 尽管熵 H ( k / n )= 0 t 但实际的描述长度 log (” + 1) 比特。） 
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(13-35) 


下面我们给出另一种方法，编码时 
使用总体上达到上述相同结果的混合分布。选取编码分布 9( A , x 2 ，…，为 
xpxz ，…，&上所有 Bemoulli ( W 分布的均匀混合。然后，我们分析使用该分布的码的性能，并 
说明对于任意的输入序列，这些码都表现得相当好。 

若假定伯努利分布的参数0服从[0，1]上的均匀分布，构造出这个分布。对于 Bernoulli (0) 分 
布，具有 A 个1的序列的慨率为因此，序列的混合概率为 

p ( xi t x 2 y -' yX n ) = - 0) nk d 6 ^ A { n , k ) 

利用分部积分，令 = 我们有 

叫 卜叫： 

+ fffl>* 4,(1 - 0) " 

或 A ( n f k )^ j ^ jA ( n f k ^\) 

又由于 A ( n , n ) = [( T 6 d = 一^,通过递归容易证明 

Jo M + I 

/>(11，工2,…， " O : A (”，々） = 


-*-! 


dd 


(13-36) 

(13-37) 


n + l C ) 


(13-38) 


由此，混合分布的码字长度满足 

log 


qU H ) 


<log(n + 1) + log(: ) + 1 


这与上述的两阶段描述相比，长度相差在丨比特之内。因此，对于所有序列 xnxz , 
长度，有一个类似的界估计 


(13-39) 
； x „ 的码宇 

(13-40) 


若实际信源服从 Bemoul ^ f ), 则最优码的码长需要 nH ( k / n ) 9 但对于没有任何假设的信源分 

布而言，上述混合分布达到的码字长度与之相比超出的代价在 flog ” 比特之间。 

对于给定心，0： 2 ,… ，心 中的前面字符下，下一个字符出现的条件概率通过该混合分布可以 
获得一个非常好的表达。设七为心，:^，…，:^的前:•个字符中1的个数。利用式 （13-38), 我们 
有 


( 7 (x l + , = 11x0 = 


q(x' A) 

9( 工 *) 



1 { k , + 1)! (” 一走 ,）！，.. •、怂！ ( i - ki)l 

7^2-~(7TT)! — 0 + 1) — H~~ 


(13-41) 

(13-42) 

(13-43) 


= ^±1 (13-44) 

/+2 

此即在给定 0 的均匀先验下 1 的贝叶斯后验槪率，称为下一个字符出现概率的拉 普拉斯估计。 
对于算术编码，可以将此后验概率作为下一个字符出现的概率，并且码字长度在有限精度内以循 
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序渐进达到 log ^ Tj 。 这在水平方向上是一个无限制的结果，整个过程并不依赖序列的长度。 

需要注意的问题是，当 A =0 或 A = n 时，均勻混合方法或两阶段方法得到的界不再成立。 

仅对于均匀界，能够给予的额外冗余度为 logn , 对此，可以利用式 （11-40) 中的界获得。现在的 [43 U 
问题是，当々= 0或 A = 时，不可能匹配足够的概率给序列。若不使用0上的均匀分布，而用 


Dirichlet (+， i *) 分布(也称为 Beta ( +，+) 分布），则序列 的概率为 


qX(x n ) = 1 ^*( 1 -^)"-*- 


dO 


(13-45) 


v m - d) 

可以证明，对于任意/ €10， U ”， 该分布达到的描述长度为 

log — ^： H ( k / n ) + 4 -logw + log 

它达到的是关于通用混合码冗余度的均匀界。如均匀先验情形，可以计算出当已知前面观察结 
果时，下一字符的条件分布，为 


(13-46) 


03 - 47 ) 

在算术编码中，利用此结果可以提供一个在线算法来编码序列。 16.7 节在分析万能投资组合屮, 
我们将更详细地分析混合算法的性能 o 


13.3 算术编码 

对于编码分布已知的随机变 tt , 只需一个字符接一个字符地进行，那么第5章中叙述的赫夫 
曼编码是掖优的。尽赞如此，赫夫曼编码受到码长必须是整数的限制，在编码的有效性方面存在 
多达1比特斥符的损失。若通过对输人字符进行分组，可以降低这样的损失——然而，这种方 
法的复杂度将随分组长度以指数増加。下面叙述一种不会产生这种无效性的编码方法。在算术 
编码中，不使用比特序列表示一个字符，而用单位区间的子区间来表示字符。 

字符序列的编码是一个区间，它的长度随蒋增加更多的字符到序列中而减少。这个性质启 
发我们给出一个增«式编码方案（扩展序列的编码容易由初始序列的编码得到），并且码字长度 
不必限制为整数。提出算术编码的动机是基于 Shannon - FanoElias 编码 (5.9 节）以及以下的 引理： 
引理〗 3.3.1 设 y 为服从连续概牟分布函數 F (>0 的随机变量， CJ = F ( Y ), 即 I ；是由 Y 的 
分布函數定义的 y 的函数。那么1/服从 [0,1] 上的均匀分布。 • 

证 明：因 F ( y )€[0, l ], 则 U 的取值范围为[0,1]。同样，对于 《 C [0,1], 有 


F v ( u ) = Pr ( UKu ) (13-48) 

= Pr ( F ( Y )^ w ) (13-49) 

= Pr ( y < F -*( M )) (13-50) 

= F ( F ' l ( u )) (13-51) 

= M (13-52) 

由此说明， L ； 服从 [0,1] 上的均匀分布。 □ 


设有限字母表尤 -0, l ，2,..., m , 考虑来自该字母表的无限随机变量序列…。对于来 
自该字母表的任意序列 A ，々，•••，将0.放置在该序列的前面，并把它看作0与1之间的一个实 
数 U + 1 进制）。设 X 为实值随机变量 X =0 U 2 …。 那么， X 的分布函数 如下： 

F x (x) = Pr|X^x = 0.xiJ2"*l (13-53) 
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= PrlO . X | X 2 … SO.owl (13-54) 

= Prl Xj<xj i + PrlX ，= jcj ，久2<工21 + …. （13-55) 

现在，设 — …。如果无限序列集上的分布没有原子 

( atom ), 则由以上引理可知， L ； 服从 [0,1] 上的均匀分布，所以， L ； 的二进制展开式中的比特序 

列 f \ F 2 …服从 BernouUi ( D ( 即服从10,1!上的独立均匀分布）。所以，这些比特不能再被压缩, 
从而成为序列0.；^义 2 …的压缩表示。对于伯努利或马尔可夫模型，容易计箅出累积分布函数， 
见下例说明。 

例 13.3.1 设 X lt X 2 ,“ •，尤服从 Bemouili ( p ), 则序列: r ” = 110101 映射成 
F ( x ") = Pr ( X ,< l ) + Pr ( X l = l , X 2 < l ) 

+ Pr ( X 1 = l , X 2 = l f X 3 <0) 

+ Pr ( X 1 = l , X 2 = l , X 3 = 0, X 4 < l ) 

+ Pr ( X I = l , X 2 = l , X 3 = 0, X 4 = l , Xs <0) 


+ Pr ( X l = l , X 2 = l , X 3 = 0, X 4 = l , X5 = 0, X 6 < l ) (13-56) 

= g + pq + p 2m 0 + p 2 Q u Q + p 2 qp.Q + p 2 QpQQ (13-57) 

—pq + p 2 q 2 + / > 3 ^ 3 (13-58) 

注意到，上面的每一项均容易从前面各项计算得到。一般地，对任意二元过程 IX , I , 

F ( x ") = Ep ( a *- l 0) x k (13-59) 

*•1 


由此，概率变换实际是从无限信源序列到不可压缩无限二元序列的一个可逆映射。下面考 
虑在有限序列上这种变换所能达到的压缩。设 X ,, X 2f -, x n 是长度为 r * 的二元随机变 M 序列， 
为特定的结果。可以将该序列视为区间 [0. 々 ^ 心 000 … •O.QxyAllll …），或 

等价地视为区间 [0.* TlX 2 … 4,0. …实际上，这是起始于 0. XP 2 … A 的无限序 

列集。经概率变换后，该区间映射成另一个区间， [ MO .^ 2 … oafvjo . aw .& + (★)”))， 

其长度等于尸 X ( A ，： r 2 , •••,〜），它为所有起始于 0. QX 2 … A 的无限序列的概率之和。又经概率逆 
变换后，在这个区间内的任意实数“映射为起始于 A ，:^，…，〜的序列，因而在给定“和 ”下， 
可以電构出 A ， : r2 , …， x n 。 前面叙述过的 Shannon-FanoElias 编码方案允许构造一个长度为 

log -7 - l — ~^ + 2比特的无前缀码，因而对于序列&，: r 2 ，…，心，有可能获得具有该长度 

py^l ，工 2 ， … ，工 ” J 

的编码。请注意，为/在理想情形下的码字长度。 

在处理服从上述累积^布 i 数的 n 序列进行编码时，假定计算具有任意的精度。而实践中，我 
m \ 们不得不以有限的梢度执行所有的数，因此要描述该执行环境。关键在于考虑的是单位区间中 
^ 的子区间而不是累积分布函数的无限精度点。任意一个有限长字符序列都对应于单位区间的一 

个子区间。算术编码算法的目标就是将一个随机变量序列表示成 [ o , i ] 中的某个子区间。随着算 
法观察到的输人字符变多，对应于输人序列的子区间长度变小。当子区间的顶端与底端越来越 
接近时，两个端点的二进制表示的前几个比特开始一致，这些相同的前几个比特也将是最终输出 
序列对应的前几个比特。为了高效地计算以及刻画往下的子区间，使得全部计算能够在给定的 
有限精度限制下实现，应该避免带着这些相同的首位往下传。为此，子区间两端点的二进制表示 
的首位一旦相同，立即清理并输出，然后对剩余的比特再进行计算。这里，我们不再详细讨论 
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(在算法和性能方面叙述比较好的文章参看 Bell 等[41])。 

例 13.3.2 (三 元输入字母表的算术编码） 考虑三元字母表 i 3, CI 的一个随机变童 X ,假 
定概率分别为 0.4,0. 4和0.2。设序列编码成 ACAA 。 于是，6(0 = (0,0.4,0.8)与^ = (0.4, 
0.8, 1.0)。起初，输人序列为空，相应的区间为[0，1)。第一个字符输人后面的累积分布函数如 
图 13-2 所示。第一个字符 A 出现时，容易计算出算法中的区间为 [0,0.4); 输入第二个字符 C 
后，区间变成[0.32,0.4)(图 13-3); 输 入第三个字符 A 时，区间为 [0.32,0.352) ;而当输人第四 
个字符 A 后，区间变成 [0.32,0. 3328)。由于序列发生的概率为 0.0128, 对于编码由 Shannon - 
FanoElias 码所得到的区间序列的中点 （0.3264, 二进制展开为 0.010100111 >,我们使用 
log ( l / D .0128) + 2( 即9比 特）。 



厂 CO 



m 13-2 第一个宇符出现后的累积分布函数 ffl 13-3 第二个字符出现后的*积分布函数 


总之，给定任意长度； * 和概率密度函数 •••，&), 箅术编码程序能够以长度 
log … +2比特编码序列进行编码。如果信源为 i . i . d •，并假定分布 

等于数据的真实分布 P , 这个程序能达到的平均分组长度与熵相比超出的部分在2比特之内。尽 
管对固定的分组长度，此程序不一定是最优的(针对分布设计的赫夫曼码可能会有较短的平均码 
长），但这个程序是增髢式的，而且对任意分组长度都适用。 


13.4 Lempel-Ziv 编码 

在 13.3 节讨论了算术编码的基本思想，并在编码来自未知分布的序列时，对于最坏情形下 
冗余度给出了一些结论。下面讨论有关信源编码的一类非常流行的技术，它们是通用最优的（即 
对于任意平稳遍历信源，渐近压缩率接近信源的熵率），而且容易实现。这类算法称为 Lmpel-Ziv 
算法，以两篇开创性论文[603, 604] 的作者命名，在这两篇文章中，作者提出了奥定这类算法的 
两个基本算法。这些算法也称为自适应字典式压缩算法。 

使用字典式数据压缩的概念可以追溯到电报的发明。在那个时候，公司的日常通信是按所 
用字符数计费，许多大型公司为常用词组编制码簿，使用相应的码字进行电报通信。另一个例子 
是流行于 India 的问候语电报，有一个标准的问候语集合，例如“25:圣诞节快乐"和“26:愿新婚 
夫妇沐浴在上帝最美好的祝福中”。当人们希望发送问候时，只需确定指定的数字，由此在目的 
地生成实际的问候语。 

基于自适应字典式方案的思想直到 Ziv 和 Lempel 于1977年和1978年发表文章后才被人们 
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广泛采用。这两篇文章描述了算法的两个不同版本。我们称为 LZ 77 或滑动窗 Lempel - Ziv 算法与 
LZ 78 或树结构 Lempel - Ziv 算法。（有时，它们各自分别简称为 LZ 1 与 LZ 2。） 

下面首先叙述两种情形各自的基本算法，并给出一些简单的变形。过后，我们将证明算法的 
最优性，并在最后讨论一些实际的问题。 Lempel - Ziv 算法的关键思想是将字符串解析成一个个词 
组，并利用指针替换词组，而这些指针指向过去出现相同字符串的位置。两种算法的区别在于各 
算法允许的可能匹配位置（和匹配长度)集合之间的差别。 

13.4.1 带滑动窗口的 Lempel-Ziv 算法 

在1977年的文章中提出的算法，其主要思想是在一个过去字符窗口的任何地方通过査找最 
长匹配进行字符串编码，同时利用指向窗中匹配位置和匹配长度的指针表示字符串。这个基本 
算法有着许多形式的变种，我们只描述其中由 Storer 和 Szymanski [507] 给出的一种。 

假定有限字母表的字符串…需要被压缩。字符串的解析 （ parsing ) S 是 
将该字符串划分成若干词组，用逗号隔幵。设 W 为窗口的长度。此时算法描述 如下： 假定已经将 
字符串压缩到时刻 i _ l , 然后， 为了找到下一个词组，先计算最大的纟，使得对某个）， / -I - 
网 长度为々并起始于 A 的字符串等于起始于&的字符串(长度为々)(即对任意的 o </<々， 
有工… = 于是，下一个词组的长度为 H 即: r , …:且表示为二元对 ( P , L ), 其中尸 

为匹配的起始位置， L 为匹配的长度。如果在窗口中没有找到匹配，则下一个字符将无压缩地被 
发送。为区分这两种情形.需要一个标识位，因此，词组有两种 类型： （ F , 尸， L ) 或 （ F , C ), 其中 
C 表示未压缩的字符。 

注意，（指针，长度)对的目标表示可能延伸超出窗口，从而导致与新的词组取科。在理论 
上，这样的匹配可以任意长。而在实际中， M 大词组长度限制为不能超过某个参数。 

例如，若 w = 4, 字符串为 AHBABBABBBAABABA , 起初窗口为空，该字符串可以解析 如下： 
A ， B , B ， ABBABB , BA , A , BA , BA ， 用“指针”序列表示 就是： (0, A ), (0, B )，(1,1,1), (1,3,6), 
(1,4,2), (1,1,1), (1,3,2), (1,2,2), 其中当没有匹配时标识位为0,有匹配时标识位为1,并且 
匹配 的位罝 是从窗口的末端向后开始测 M 的。（在此例中，使用二元对 （ P , U 表示窗口内的每个 
匹配。尽筲如此，或许将短匹配表示为未压缩字符显得更加有效。细节见习题13.8。） 

这个箅法好比使用了一个字典，它由窗中字符串的所有子串与所有单字符构成。算法是要 
找到字典内 的最长 匹配，并且分配一个指针给这个匹配。此后，我们会证明 LZ 77 的这个版本的 
简单变形是渐近最优的。大多数 LZ 77 的实际实现，例如 gzip 和 pkzip , 都是基于 LZ 77 这个版本。 
13.4.2 树结构 Lempel-Ziv 算法 

Ziv 和 Lempel 在1978年的文章中提出的算法是将字符串分解成一个个词组，其中每个词组 
均是此前未曾出现过的最短词组。该算法呵以视为构建了一个具有树形式的字典，其中的节点 
对应于目前已经出现的同组。该算法特别容易实现，由于它的快速与高效，它作为计箅机中文件 
压缩的早期标准算法之一，非常流行。在高速调制解调器中的数据压缩也采用该算法。 

将信源序列顺序地分解成直到目前还未出现过的最短的字符串。例如，假设一个字符串为 
ABBABBABBBAABABAA - -- ,将其分解为 A ， B ， BA ， BB ， AB ， BBA ， ABA , BAA …。在每个逗号后，沿 
着输人序列观察，直到发现此前还未被划分出的最短字符串为止。由于这个宇符串是最短的，它 
442] 的所有前缀均在前面出现过。（因此，可以构建出这些词组的一棵树 J 特别地，由此字符串的最 
后一位除外的所有位构成的字符串必在前面已经出现。通过给出前缀的位置和最后一个宇符的 
值确定这个词组的编码。因此，上述字符串可以表示为 (0， A )，(0, B ), (2， A )，(2, B ), (1， B )， 
(4, A )，（5， A )，(3, A ),••• 

’在每^词组中，发送一个未压缩字符会降低有效性。将延长字符（当前词组的最后一个字 
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符)考虑为下一个词组的一部分，可以解决该问题。这个变异是由 Welch [554] 提出，已经是许多 
LZ 78 实际实现压缩的基础，例如 Unix 下的，在调制解调器中以及 GIF 格式的图形文件中的压缩 
( compress ) 。 

13.5 Lempel-Ziv 算法的最优性 

13.5.1 带滑动窗口的 Lerrpe 卜 Ziv 算法 

在 Ziv 和 Lempel 的最初文章 [603] 中，作者提出了基本的 LZ 77 算法，并证明对于任意字符 
串，这个算法与任何有限状态压缩器相比都能压缩的一样好。尽管如此，他们并没有证明该算法 
所能达到的渐近最优性（即对于遍历信源，压缩率收敛于熵）。 Wyner 和 Ziv [591] 给出了这个结论 
的证明。 

该证明依赖于 Kac 发现的一个简单引理，等待看到一个特定字符所需时间的平均长度为该 
字符概率的倒数。于是，我们希望看到窗口范围内的高概率字符串，并有效地编码这些字符串。 

没有在窗口内找到的字符串概率很小，因而在渐近意义上，它们不会影响可达压缩。 

下面我们并不证明 LZ 77 实际版本的最优性，而是先来说明该算法的一个不同形式的简易证 
明，它虽然不实用，但能抓住一些基本思想。这个算法假定发送器和接收器均能访问字符串的无 
限过去，同时利用指向在过去出现字符串的最后时刻表示长度为 n 的字符串。 

假设一个平稳遍历过程，其时间从-⑺到⑺，编码器和译码器均知道序列的无限过去…， 

X 十 X -、。 为了编码，…，:^^(长度为《的分组），在过去我们找到出现这”个字符的 
后时刻。设 

-( Xo ，-. X n .,)l (13-60) _ 

为了表示 X 0 ， X x ，…， X ”-" 只需 将心 发送给接收器，然后它在过去反向观测从而恢复 X 0 , 

因此，编码的成本是表示的成本。下面将证明这个成本近似于 log %， 而且渐 

近地有由此证明上述算法的渐近最优性。 

先来证明以 T 引理。 

引理 13.5.1 存在整数的无前级码，使整數々的码字长度为 log ^ + 2 Iogiog ^ + 0( l ) 0 
证明： 如果已知々 < m , 可以用 logm 比特对走编码。尽管如此，由于并不知道走的上界，， 

要将 々的 编码长度告诉接收器（即，需要确定 logW 。 考虑如下整数々的 编码： 首先用一进制表示 
riog / H , 紧接着是 々的 二进制表示： 

C t ( ife ) = QQ ^0 1 2^5 U 3-61) 

容易看出，这个表示的长度为 2 「 logiH+l<21ogit + 3。 由于使用低效的一元码发送 logl 使得长 
度远超出我们所期待的。虽然如此，若使用 G 表示 iog ^, 就容易看到，这个表示的长度不超过 
log 々 +21oglog 々 +4, 引理得证 3 类似的方法在定理 14.2.3 之后也有所讨论。 口 

Kac 引理是 LZ77 最优性的证明过程中的关键结果，它表明对任何平稳遍历过程， 一 个字符 
的平均重复出现次数与该字符的概率相关。例如，若 U 2 ," •，尤 为 i.i.d. 过程，我们要问，在 
= 的条件下，再次观察到字符 a 的期望等待时间为多少？对此情形，等待时间服从参数/> = 

/>( X Q = a ) 的几何分布，从而期望等待时间为 l 々> U G = fl )。 让人有点惊讶的是，当该过程不满 
足独立性，仅为平稳和遍历时，结论同样成立。一个简单而直接的理由是，在长 度为” 的大样本 
中，我们希望能观察到 a 大约 npU ) 次，这些出现 a 的结果之间的平均距离为 



(即 l //> U))o 

引理 13.5.2( Kac ) 设…，1；_ 2 , l /。， ，…为可数字母表上的平稳遍历过程。对任意 


u ， 有 p(u)>Q 以及对 / = 1,2，"•，设 

Q u (*) = Pr | C；- l = M ; L 7 ^ M 对于 —*< j < OlU 0 = M l (13-62) 

(即已知 U 0 =u, Q u (0 是此前出现字符《的最近时刻为£的条件概牟。）从而， 

EiR . iU ) \ X 0 = u )= TiiQuH ) = ^7) (13-63) 

因此，从 0 处反向观察，再次现察到字符 m 的条件期望等待时间为 Wp(u) 0 
注意如下有趣的结果，期望再现时间为 

ER l ( U ) = ^ p ( u ) j ^ ) = m (13-64) 

其中 m 为字母表的大小。 

证 明：设 Uo ^ uo 对户 1,2,…和务=0,1,2,…，定义 事件： 

A a =\U^=u 9 U^u f -j</<k,Uk = ul (13-65) 

亊件 A # 表示这样的 事件： 在 0 时刻之前而距 0 时刻最近的时刻过程等 于《 的事件，在0时刻 
之后且距0时刻最近的 A «近时刻过程等于的事件〃。这些事件互不相交，且根据遍历性可知， 
槪率 PrlUjy ^ hl 。 于是， 

1 = PriU i .* A > *l (13-66) 

= Si ： Pr | A^I (13-67) 

/-I *-o 

= i ] i ] Pr ( L ； 4 = u ) PrlU.j = u 9 U ^ u f -j < l < k l U k = u \ (13-68) 

>-l *_0 

= = u)QM + k) (13-69) 

/•I 身彎 0 

= 2 ^ Pr( if 0 = u)Q u (j + k) (13-70) 

i-i *_o 

= Pr ( U 0 = w ) ESQu (> + ^) (13-71) 

>-i 卜 o 

( ^ Pr ( L ； o = u )^ iQ u ( i ) (13-72) 

其中， U ) 成立是因为相交， （ b ) 可由 Q u (.) 的定义得到， （ c ) 是由于平稳性， （ d ) 是因为在 
和式中，满足 j + 々 = i •的(），々）有 f 对。根据这个等式，立即可得 Kac 引理。 □ 

推论设…，…为平稳遍历过程，，…，尤叫）为式 （13-60) 定义的反向观 
察的重现时间，則 

£[ K n ( X 0 r -^ X n . 1 ) l ( X 0 r -% X nM ) = xr ， ] = ^^ (13-73) 

证明： 定义新过程 G = …， + 平稳遍历的，从而根据 Kac 引理可知，给定 

U 0 = u 9 I ；的平均再现时间为1/ 〆 “）。然后将此转化为 X 过程就可证得该推论。 口 


现在来证明主要结果，也就是利用再现时间证明简单形式的 LempeUZiv 算法的压缩率趋于 
銜。算法利用尺„(耶 -1 )来描述 M -1 , 根据引理】 3.5 J 可知，这个描述需要 logi ^ + 21 oglogR n + 4 
比特。我们可以证明如下定理。 

定理 13.5.1 设 j ^ X ^ hlogmioglog 化 + 0(1) 为上述简单算法中的 XT 1 的描述长 
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度，当 72 — 00 时，有 

士 ELJXT 1 )—m ，） (13-74) 

其中 / f ( Y ) 为过程 I & I 的 燏率。 

证明： 我们首先估计的上下界。下界可以直接由标准的信源编码结论得到（即对任何 
无前缀码， EL n > nH ) o 为了估计上界，我们首先证明 


^i—E\ogR n <H (13-75) 

然后估计表达式中其他项的界。为证明关于 Elog /? B 的不等式，我们把以 X 3' 1 的值为条件将 
期望展开，然后利用 Jensen 不等式，有 


^E\ogR n = 士 丨 XT 1 = XV 1 ] 

(13-76) 

《iSpUS’logE [尺” (XT 1 ) 1 XT 1 = xj- 1 ] 
n , 

(13-77) 


(13-78) 

= 士 h(xt) 

(13-79) 

\H(X) 

(13-80) 

L n 表达式中的第二项为 loglog/? B , 希望证得 


^EtloglogR^X；- 1 )]^) 

(13-81) 

再次利用 Jensen 不等式，可得 


-i-Eloglog^ n ‘^logMlog/?〆；^- 1 )] 

(13-82) 

g+iogmxr 1 ) 

(13-83) 


其中最后一个不等式可由式 (13-79) 得到。对任意£>0,当”充分大时， HUCi - l )< n ( H + e) t 

所以士 loglog 尺 n < + log« + 士 log(H+ €)—0 。 定理得证。 口 

因此，通过编码过去观察到的最近时刻来表示字符串，这样的压缩方案是渐近最优的。显 
然，由于事先假定发送器和接收器都能访问序列的无限过去，其实这个方案很不实用。对更长的 

字符串，人们需要向后观察得愈来愈远，才能找到相应的匹配。例如，若熵率为|，字符串的长 

度为200比特，平均需要在过去向后观察 Z 100 ^^!) 30 比特，才能找到一个匹配。尽管这个方案不 
可行，但算法表明匹配过去的基本思想是渐近最优的。带有限窗口的 LZT 7 实用版本的最优性证 
明也基于类似的思想。我们不再叙述其中的细节，读者可以参看 [591] 中的原始证明。 

13.5.2 树结构 Lempel-Ziv 压缩的最优性 

考虑 Lempel-Ziv 算法的树结构形式，其中输人序列解析成词组，每个词组是到 0 前为止未出 
现过的最短字符串。这个算法的最优性证明不同于 LZ 77 的证明，有自身的 特点； 证明的关键是 
讨论计数，表明如果所有词组都不相同，那么词组数目不可能很大，而且任何字符序列的概率可 
以由序列解析中的不同词组数的函数界定。 
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13.4.2 节中叙述的算法对字符串的处理需要两个过程一第一个过程为解析字符串，并计 
算解析字符串中的词组数 r («)。 然后确定需要多少比特 ([ logrU )]) 分配给算法中的指针。在 
第二个过程中，计算指针并生成如上所述的编码字符串。通过改进，可以使算法在处理字符串时 
只需一个过程，而且能使用更少的比特匹配给初始指针。这些修改不会影响算法的渐近有效性。 
其中的一些实现细节可以参看 Welch [554] 和 Bell et al .[41]。 

下面将证明，如 Lempel-Ziv 滑动窗版本一样，这个箅法也渐近达到未知的遍历信源的熵率。 
旨先定义字符串的解析为字符串的一个分解。 

定义二元字符串 z 丨 jt 2 … a 的解 析指字 #串的划分，利用逗号将字符串隔开，分解成词组。 
如果任何两个词组均不同，就称该解析为相 异解析 (distinct parsing )。 例如，0, 111, 1是01111的 
一个相异解析，而0, 11, 11也是它的解析，但不相异。 

以上所述的 LZ 78 算法给出了信源序列的相异解析。设 d « ) 表示长度为72的序列的 LZ 78 解 
4481析中的词组个数。当然， cU ) 依赖于序列 X "。压缩后序列（应用 Lcmpel-Ziv 算法所得）由 c ( n ) 
个二元对构成，每个二元对的第-个分量表示一个指针，指向该词组前缀的先前出现位置，第二 
个分童为词组的最后一位。每个指针需要 log C ( n ) 比特，因此，压缩后的序列总长度为 

c ( M )[ iog C u ) + i ] 比特 u 下面证明，对于平稳遍历序列 XhXh …， x „， 有 c (” 

证明基于 Wyliw ■和 Ziv [575] 有关 LZ 78 编码的渐近最优性的简单证明。 

在详细叙述证明之前，先给出证明所需的关键地方。第一个引理表明，序列的相异解析中的 
词组数不会超过 nAogm 证明的关键在于要知道不会存在充分相异的短词组。另外，这个界对 
序列的任何相异解析都成立，不只对 LZ 78 解析成立。 

第二个关键点是利用相异词组数给出序列概率的界估计。为说明此点，考虑 i . i . d . 随 机变贵 
序列 Xi , X 2 ， X 3 , X 4 , 它们的可能取值为 IA , B , C , D |, 其槪率分别为 p A , p B , p c 和如。现在考 
虑序列的概率由于 /> A + ^ + /> r + 如=丨，则当各概率值相等时，积 
PdPaPbPc 达到铋大值(也即，四个相异字符所成序列的槪率的最大值为1々56)„另一方面，若考 

虑序列 A ， I 3，/\， f 3, 那么它的概率当 h = Pc=/>d = 0, 序列 A ， B ， A,B 的槪率的最大值 

为形如 A , A ， A , A 的序列的槪率可以取到1。所有这些例子说明一•个基本观点——具有大 
* 相异字符串(或词组）的序列不洱能具有大的槪率。 Ziv 不等式(引理 13.5.5) 就是马尔可夫情形 
下这个思想的推广，其中相异字符串即指信源序列的相异解析中的词组。 

由于经解析后，序列的描述长度随 clog C 递增，含少《相异词组的序列有效地压缩，且这样 
的序列对应于具有较卨槪率的字符串。另一方面，具有大量相异词组的字符串不会压缩得很好; 
而且根据 Ziv 不等式可知，这些序列的概率不会很大。因此， Ziv 不等式使我们将序列概率的对 
数与解析中的词组数联系起来，并可由此证明树结构 Lempel-Ziv 算法是渐近最优的。 

下面先证明几个定理证明过程中需要的引理。第一个是关于长度为《的二元序列的相异解 
网 析中珂能的词组数的界估计。 

引理 13.5.3 (Lempel 与 Ziv [604]) 二元序列& , X 2 , …， 的相异解析的词组數 cU ) 满足 

(,3 - 84) 

其中当 w ⑺时， 6 n = minjl , 咏(=:) _ 土 4 卜 0。 
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证 明：设 


== (k - 1)2* +1 + 2 


(13-85) 


表示长度小于或等于 A 的所有相异字符串的长度总和。对于长度为《的序列，当所有的词组都 
尽可能短时，其相异解析的词组数 c 达到最大。若 n = 则当所有词组的长度这种情况 
发生，因此 


U) < = 2** 1 - 2 < 2 4+1 < r^r 


(13-86) 


若〜 + 记； ! = 〜 + △, 其中 △<U + 1)2〃 1 。 于是分解成最短词组的解析就由长 
度的词组和长度为6 + 1的 A/U + 1) 个词组组成。因此 


对于给定的〜界定 ife 的大小。设，则 

仏 * =(卜1)2… + 222* 

所以， 

k^：\ogn 

从而，由式 （13-89) 可得 

n<n k ^ = k2^ 2 ^2<(k + 2)2 k * 2 <(\c^n+2)2^ 

所以， 




(13-87) 


(13-88) 


(13-89) 


(13-90) 




或对任意有 


(13-91) 1M 


(13-92) 


(13-93) 

(13-94) 

(13-95) 

(13-96) 


k - 1 ^logn - logdogn +2)-3 (13-92) 

= (1-^^^ —(13-93) 

3 )logn (13-94) 

… 上备丄 4 ) 一 (13 _ 95) 

= (1 - c n )logn (13-96) 

注意，联合式 （13-96) 和式 （13-87) ,即可得到引理。 口 

在关键定理的证明屮，需要利用有关最大熵的一个简单结论。 

引理 13.5.4 设 Z 为非负整数值随机变量，其均值为 户， 則熵 H(2) 满足 

H(Z)<(^ + l)log(Ai + 1) - / Aog M (13-97) 

证明： 此引理可由定理 12.1.1 的结论直接得到。这个结论表明，在均值已知条件下，使非 
负整数值随机变量的熵达到最大的概率密度是几何分布。 □ 

设 lX,ir=-oo 是概率密度为 P(x 1 ，:^，…，心）的平稳遍历过程。（对遍历过程的细致讨论见 
16.8 节。)对固定的整数々，定义 尸的々 阶马尔可夫近似为 

—,x n ) ^ P(x-(*_ 1) )1T^(^> I ^ *) (13-98) 

其中^^匕^〜……以^^初始状态/^^可部分体^^*的具体情况。由于尸 U n l 
自身也是遍历过程，则有 


(13-97) 


(13-98) 


45T 
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- 士 logQ“U 2 ，…成 I XV”) = -士 SlogPU) I )C~\) 


(13-99) 


—- E \ ogP ( Xj \ Xy .\) (13-100) 

= H ( X J \ X f -.\) (13-101) 

对于任意的 l 刊用 A 阶马尔可夫近似的熵率估计出 LZ 78 码的码率。当 oo 时，马尔可夫近 
似的熵率收敛于原随机过程的熵率，由此可知结论成立。 

假定 xl 被分解成 c 个相异词组: y 1： y 2 ，…，乂，。设表示第/个词组的起 
始字符的下标，即:对每个 f = 1,2,…， c , 定义 = 于是， s , •表示在乂前的4 

的务比特。显然有 5l = J u _ u 。 

设仏表示长度为/，前面状态力=;的词组: y , 的个数，其中/ = 1,2,…，以及则有 

TjCu = c (13-102) 

I.M 

和 

H , lc b = n (13-103) 

基于字符串的解析，可以得到字符 串概+ 的一个上界。这个结果非常令人惊奇。现在我们 
来证明。 

引理 13.5.5 (Ziv 不等式）对于字符串… a 的任何相弁觯析(特别是 LZ 78 解析），我们有 


或 


logQ*(x! ， x 2 * —*x n I s x ) <- ^c u \ogc u 

注意，上式右边不依赖于 Q 4 。 " 

证明 •.有 

Q* ( 文 ！， 12 ,… ， I Si 〉= (M , 力 ， … ， 3V I 5! ) 

=n P(yi 15,) 

• •1 

r 

logQ *( x 1 , X 2 ,--, JT n I 5,) = 2] logP (^ I 5,) 

=S S logP (: y , I s ,) 

=Sa S -f-logP(^, I Si) 

l.$ 

< S ^ log ( 2 1 

i.s \着:1馬 I 繼/•气讎《 t 厶 

其中不等式成立可由 Jensen 不等式和对数函数的凹性得到。 

由于乂是各不相同的，则 D P ( y t I \)<1。于是， 


(13-104) 


(13-105) 

(13-106) 

(13-107) 

(13-108) 

(13-109) 

(13-110) 


si 




(13-111) 

□ 


\ ogQ k ( x l 9 x 2 r -, J ： 

引理得证。 

下面我们来证明本节的关键定理。 

定理 13.5.2 设 iX„l 为平稳遍历过程，熵率为 H ( Y )。 对于来自该过程且长度为”的样本， 
设其相异解析中的词组数为 c ( n ), 則依概率1,有 

limsup c ( n ) logc ( y 2) < H ( A -) 


(13-112) 
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证明： 先利用 Ziv 不等式，可得 

— .X,, I 5i) So*log 手 




(13-113) 


(13-114) 


记〜 = 则由式 （13-102) 和式 （13-103), 可得 

y]^U = 1 . =— 

/.i l.i c 

现在定义两个随机变量I；和V，使得 


于是£以=立，且 


或 


Pr(U = l t V=s) = n u 


\ ogQ k (xi t x 29 — ,x„\si)KcH(U t V) - clogc 


-"rlogQ>(xi f V) 


而 

H ( jy , V )< H ( U ) + H ( V ) 
a . H ( V )< log | Af |* = ik e 由引理 13.5.4, 有 

H( (7X(EL/+ l)log(El；+ 1) - (EU)log(ELO 

= (f +i Wf +i )->«f 

因此， 

fH(U t VXfk + flog ~ + o(l) 

对给定的； I ， 当 c 取最大值时（对于士）， f logf •达到最大值。而由引理 13. 
(1 + 0(1))。于是 

因此，当时， V0— 0。 所以， 

n 

C ( n ) 1 ^ ~ ( f? )<-^~logQ“zi，z 2 ，".，:r”U 1 ) + e k (n) 

其中， ~ 时， qU)— 0。因而依概率 l, 有 

lim sup C ( ” )(” ■ ) < lim - 丄 logQ^d ， X 2 , … ， X” | X^( 卜”） 


(13-115) 

(13-116) 

(13-117) 

(13-118) 

(13-119) 

(13-120) 

(13-121) 

(13-122) 

(13-123) 

• 3 - 

(13-124) 


(13-125) 


(13-126) 


(13-127) 

(13-128)D 


= H(X 0 IX_ 1 ,-,X.*) 

—H(^) 当 A—oo 时 
现在来证明 LZ78 编码是渐近最优的。 

定理 13.5.3 设 IXlToo 为平稳遍历随机过程， / Ui , X 2 , …，； U 为序列 X lt X 2 , …，父„的 
LZ 78 ■码长，則 
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456 


260 


第 13 章 


\\ m ^ p ^ l ( X l 9 X 29 -, X n )< mX ) 依概率 1 成立 （13-129) 

其中 H ( Y ) 表示过程的熵率。 _ 

证明： 我们已经证明/(^ 2 ，."，；0 = <:(/1)(1呢(：（”）+ 1)，其中 c (”）表示字符串&， 
X 2 ,.“， X „ 的 LZ 78 解析中的词 组数。 由引理 13 . 5 . 3 可知 ， Um sup c (/ i)/n =0,于是，由定理 

13.5.2 即可证得 

lim sup /U - X2 ；'-^ = Hm sup + 守） 

<H(AT ) 依槪率1成立 U3-130) 口 

由此可知，对于遍历信源， LZ78 码的每信源字符 K 度渐近不大于信源的熵率。对于 LZ78 的 
A4 优性证明，有几个有趣的特征值得注意。相异词组数的上界和 Ziv 不等式都适用于字符串的任 
何相异解析，不仅对算法中所用的增《式解析形式适用。对于解析算法的各种变形，上述证明过 
程在许多方面都可以得到推广。例如’当上下文或状态相互依赖时，使用多®树就吋解决问题 
[218,426]。 Ziv 不等式(引理 13.5.5) 是一个非常有趣的结果，这是因为不等式一侧是概率，而另 
--侧是序列解析的一个纯确定性函数， Ziv 不等式将它们完艾地联系广起来。 

Lempel-Ziv 码是通用码的简单实例（即编码不依赖于信源的具体分 布）。 这种编码在未知信 
源分布的情况 F 就可使用，而且可达的渐近压缩率等 f 信 源的嫌 j 丰 

要点 


理想化的码字长度 


平均描述长度 


•( x ) = k « 


p (* r ) 


(13-131) 


(13-132) 


(13-133) 

(13-134) 

(13-135) 


板幸估计分布 h ( x ) 如果 ！ U ) = log ^^, 則 

E ； U)^H{p) + D(p\\p) 

平均冗余度 

^ = E ^( X )- H ( p ) 

最小最大冗余度 对 x 〜 p 0 ( x )， eee ， 

D m =min maxl?^ = min maxD( pg\\ q) 

最小最大定理 D . = C , 其中 C 为信道 丨的矜 W 。 

伯努利序列 对于 X " 〜 Bernoulli ), 冗余度为 / 

D ； = minmaxD (/> tf ( x -) l ! + o ( logn ) 

算术编码 F ( x ") 的比特近似显示了文”的 n 比特。 ： 

Lemple « Ziv 编码(再现时间编码）设見⑺)餘我们在过去观察到 w 长字符组 V 的最近 

时刻， W ^ logR .- H (^) f 且描述再现时间的煸码是渐近《优的。 

Lempte-Zlv 编码(序列解析） 如果序列可以解析为此前未出 舰的最 短词组 (例如 ， < ^ 101 


(13-136) 
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解析为0, 1, 10, 11, 101, …）， /(?) 为解析序列的描述长度，則对任意平稳遄历过程1式|,均有 
诗 | v Kmsup ~/( X -)< H (^) 依槪率 1 成宜 ^ ; (13-137) 


习题 


13.1 最小最大遣憾数据压缩与信道容量。 首先考虑两个信源分布的通用数据压缩。设字母表 
V=I1^,0|, 离散密度/>〆!；)当 V =1 时为 l - a; 当 v = e 时为 a; 离散密度户 2 ( v ) 当 v = 0 
时为 1-a, 当 t; = e 时为 a。 灵活地选取概率密度函数/>(!；)，并用理想的码字长度 /( V ) 


13.2 


= log^*Kffi V闕邦 ffi 0 ft 跡舰 T’ 祕臟 W 财紐(即紗* 
熵的那部分)为 

II P) (13-138) 

由此， M 小 M 大遗憾为 =mm p max,D(pi II />) 0 

(a) 求 D、 

(b) 求达到 IT 时的 />( V )。 

(c) 比较 IT 和二元擦除信道的 容燉， 

1 ~ a a 0 1 

0 a 1 - a -i 

并给出讨论。 

通用數据压缩。 考虑 A 上的三种可能信源分布， 

P fl = (0.7,0.2,0.1), /^ = (0.1，0.7,0.2), P f = (0.2,0. 1 ,0.7) 


(a) 试求压缩的 最小增 M 式成本 

D m =nunmaxD(P e II P) 

其中相应的密度函数为理 k 的码宇长度为 /, = log(l/A)。 

(b) 以 P a ，P h ，P c 为三行的信道矩阵的信道容 tt 是多少？ 

13.3 算术编码。 设IX, iru 为平稳二元马尔可夫链，转移矩阵为 

*3. 丄 - 

4 4 

烏=丄 A 
L 4 4」 


(13-139) 


若； T = 1010111…，计算 F (: ^) = 0./^/^ ••的前3比特。这确定了 X 00 的多少位? 


丄 1： 

13.4 算 术编码 。设 X,为二元平稳马尔可夫链，转移矩阵为$ ;。 

l-T J. 

(a) 求 F(01110) = Pr|.X 1 X 2 X3X 4 X5<.01110|o 

(b) 如果不知道 x = omo 将如何继续，则多少比特的••可以被确定。 

13.5 Lempel-Zivo 给出00000011010100000110101 的 LZ78 解析和编码。 

13.6 常序列的压缩。假 设给定常序列 x” = lllll …， 

(a) 给出这个序列的 LZ78 解析。 

(b) 证明当⑺时，这个序列每字符编码比特数趋于零。 

13.7 另一个理想化的 Lempel-Ziv 编码版本。 我们已经证明理想化的 LZ 版本是最 优的： 编码器 
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_ 和译码器都可以访问过程…， X _,, X D 产生的“无限过去”，并且对于字符串（：^，乂 2 ,…， X „) 

的描述，编码器将过去该字符串首次再现的位置告诉给译码器。这大约要花费 log^ n + 
21 oglogi ^ n 比特。下面考虑如下的 变化： 编码器不描述而描述和最后一个字符 
X „ 0 从这两个分童，译码器可以重构出字符串 （ XpX 2 , …，；0。 

( a ) 在上述情形下，编码(&,义 2 ,…，; O 所需的每字符比特数为多少？ 

( b ) 修改正文中的证明过程，据此说明这个版本也是渐近最 优的： g 卩，每字符期望比特数 
收敛于熵率。 

13.8 L 277 中的指针长度。 对 LZ 77 版本 ，根据 Storer 和 Szymanski [507] 的阐述(见 13.4.1 节）， 
较短的匹配可以表示为 （ F , P ， L ) (标识，指针，长度)或者 （ F , C ) (标识，字符）。假定窗口 
长度为 W , 最大匹配长度为 M 。 

( a ) 为表达 P 需要多少比特？表达 L 又需要多少比特？ 

( b ) 假定字符表示 C 的长度为8比特。如果 F 加上 L 的表示长度超过8比特，那么，将单 
字符匹配表示为未压缩字符比起表示为字典内匹配的效果更好。但是，必须将其表示为 
字典内的一个匹配而非未压缩字符时，这样的最短匹配为多少(为 W 和 M 的函数)？ 

( c ) 设 W = 4096, M = 256, 如果将其表示为一个匹配而非未压缩字符，最短匹配为多少？ 

13.9 Lemple - Ziv 78 

( a ) 继续序列0 , 00 , 001, 00000011010111 的 Lemple^Ziv 分解。 

( b ) 给出一个序列，使得 LZ 解析中词组数的增长尽可能快。 

( c ) 给出一个序列，使得 LZ 解析中词组数的增长尽可能慢。 

13.10 固定数据库的两个 Lemplc^Ziv 版本。 考虑信源 (4, P )。 为简单起见，假设字母表有限， 
l > U = A < c « ，且字符串为 i . i . d 〜 P 。 固定数据库 P 已知并对译码器开放。编码器将目标 
_ 序列: r 〗 解析成许多长度为/的字符组，并且对它们在数据库中的最近出现进行二元描 

述，从而依序编码它们。如果找不到这样的匹配，则不经过压缩就发送整个字符组，这 
需要 / logA 比特。利用标识告诉译码器，匹配位置是经过描述的还是序列本身。在“)和 

( b ) 中，给出了 ( c ) 中固定数据库 LZ 的最优性证明所需的准备知识。 

( a ) 设 々是 长度为/且起始于0的5 典型 序列，为无限过去…，中相应的 
再现下标。证明 

E [ R / ( X # )| X , = j /]<2 /<H4d) 

其中 H 为信源的熵率。 

( W 证明： 对任意 e >0, 当 /— oo 时， Pr ( i ? / ( X / )>2 /( H + c ) )-^0 o (提示：以字符串 V 为条 
件，将题中概率展开，并将事件分成典型的和非典型的两类。然后利用马尔可夫不等式 
和 AEP 可以轻松证得该结论。） 

( c ) 考虑以下两个固定数据库 ： (OPi 为所有 S 典型的/向量 构成； （ iOP 2 为无限过去（即 

^“，•••，又-…中最近的£ = 个字符构成。结合数据库 Pi 或 P 2 , 讨论上述算法是 

渐近最优的，即每字符期望比特数收敛于熵率。 

13.11 Tunstall 编码。 信源编码的通常做法是将来自有限字母表的字符(或一•组字符）映射成变 
长的字符串。赫夫曼码就是这样的例子，它是从字符集到无前缀码字集的一个最优映射 
(从最小期望长度上讲)。 V - F 编码是将不定长的信源字符串变成定长的二元(或 D 元）串 
的编码。下面考虑 V - F 码的对偶问题，对于 i . i . d . 随机变量序列…，尤， X ,〜 
/> U )，： rGY = lO ， l ， …，; 71-11， V - F 码定义为无前缀词组集 A D C =1 •，其中 Y •表示所有 
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i 的有限长字符串集合， IA d 1= D 3 给定任意序列 U 2 ，…，&,字符串解析为丸中 
的词组（由的无前缀性可知，这样的解析是惟一的），并表示为来自 D 元字母表上的 
一个字符序列。定义该编码方案的有效性为 

R(A ^=Eut) (13 ' 140) 

其中 i ^ Ap ) 表示中词组的期望长度。 

( a ) 证明 K ( A d )> H ( X )。 

( b ) 构造的过程可以视为构造 m 叉树的过程，树的叶子为中的词组。假定存在 
整数使 D = 1 + A ( W -1)。 考虑如下 Tunstall 给出的 算法： 

( i ) 初始化>\=|0，1,"*，/«-1|,其槪率分别为/> 0 ,/> 1 ,_",/>„ 1 _1。这对应于深度为1的完 
全 W 叉树 a 

( ii ) 将概率最高的节点展开3例如，若 P 0 是槪率 M 高的节点，则新产生集合。 

A = |00,01,… ， 0(m -1) ， 1，…， （m -1)1 

( iii ) 重复第二步，直至叶子数(词 组数) 达到所 滿值。 

证明： 对于给定的 D , 若从构造具有最佳尺 （ A D ) 的 V - F 码方面看（即，对于给定的 D , 
£ L ( A D ) 具有最大值）， Tunstall 算法是《优的。 

( c ) 证明:存在 D , 使得尺 （ A 6)< mx ) + i 。 


历史回顾 


FitingofUll] 和 Davisso n [159] 中分别分析了未知分布的信源编码问题，并证明了存在几类信 
源，它们的通用信源编码是渐近最优的。将通用码的平均冗余度和信道容 M 联系起来的结论归 
功于 Gallager[229] 和 Ryabko[450 ]。 证明见 Csiszdr 给出的结果。将这个结论推广，可以证明 
Merhav 和 Fede r [387] 给出的 结论： 对于类中的“大部分”信源，信道容 W 就是冗余度的下界，这个 
结果是推广了 Ribsan e n [444,448] 给出的关于参数情形的结论。 

提出算术编码程序的根源是 Elias 发展起来的香农-费诺码（未发表）， Jclinek 对此曾做过分 
析[297 ]。 书中所述的无前缀码构造程序源自 Gilbert 和 Moore[249 ]。 算术编码本身由 Rissancn 
[441 ] 和 Pasco[414] 提出， Langdon 和 Kissai^ntMS] 进行/推广。读者也可以参考 CoverL 120] 中 
的穷举方法。有关算术编码的介绍手册可参看 Langdon[342] 和 Wiu en etal.[564 ]。 结合 Willems 
et al.[560, 561] 给出的上下文的树形加权算法 （ context-tree weighting algorithm) , 术编码可以达 
到 Rissanen 下界 [444], 因而也具有最优速率收敛到具有两个未知参数的树形信源的熵。 

Lempd-Ziv 算法最初出现在 Lempcl 和 Ziv 的开创性论文 [603,604] 中。虽然原始的结论非常 
有趣，但直到 Welch [554] 发表了简单而又有效的算法版本之后，实现压缩算法的工作者才对此引 
起了足够的重视。自此，算法的多种版本相继出现，其中许多都获得了专利。当前，许多压缩软 
件均采用了该算法的某种版本，这包括图像压缩的 GIF 文件和调制解调器中压缩的 CQTT 标 
准。 Lempel-Ziv 滑动窗版本 （ LZ 77) 的最优性证明归功于 Wyner 和 Ziv [575]。 LZ 78 的最优性证明 
的推广 .[426] 证明 LZ 78 的冗余度的阶为 l/log(rz), 恰好与 login )/ n 的下界相反。尽管对于所有 
平稳遍历信源， LZ 78 是渐近最优的，但相对于有限状态马尔可夫信源的下界而言，熵率收敛得 
非常慢。然而，对于各种遍历信源，通用码的冗余度下界并不存在， Shields[ 4 92] 以及 Shields 和 
Weiss[494] 通过例子说明了 这点 。 Effroset al.[181] 详细分析了无失真压缩算法，这个算法主要基 
于 B_w S 和 Wheeler [81] 提出的分组排序和使用简单的游程编码。有关通用的预测方法可以参 
看 Feder, Mcrhav 与 Gutman [204,386,388 ]。 
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第 14 章科尔莫戈罗夫复杂度 


伟大的数学家科尔莫戈罗夫毕生致力于数学、复杂度和信息论的研究，1965年他给出一个 

对象的内在描述复杂度的定义，研究生涯达到了顶峰。在目前所讨论的范围内，对象 X 总是假设 

为一个服从于概率密度函数 M ^ r ) 的随机变景。如果 X 是随机的，从某种意义上说事件 X = ^:的 

_ ■ 

描述复杂度是 log 这是由于是用香农码描述: T 所需要的比特数。由此，我们 

直接看出这种对象的描述复杂度依赖于槪率分布。 

科尔莫戈罗夫的研究更广泛。他把一个对象的算法（描述）复杂度定义为能够描述该对象的 
二元计算机程序的 M 短长度（明显地，计算机作为最一般形式的数据解压缩器，经过有限步的计 
算之后，利用这个描述来展示被描述的对象)。于是，一个对象的科尔莫戈罗夫复杂度不涉及概 
率分布。科尔莫戈罗夫做出了一个至关重要的观察，即，复杂度的定义本质上是独立于计算机 
的。更令人惊讶的亊实是一个随机变饿的最短二元计算机描述的期望长度近似等于它的熵。所 
以，最短计算机描述的作用就像一个通用码，它对所有的槪率分布都一样好。从这种意义上说, 
算法复杂度在概念上是熵的前身。 

也许对本章的作用的最恰当的理解是把科尔莫戈罗夫复杂度当作一种思维模式来考虑。在 
现实中，我们并不使用最短的计算机程序，这是因为找到这种最小程序可能要花贽无限长的时 
间。然而，在现实中我们可以使用很短但不是 最短的程序； 而且，寻找这种短程序的思想可以启 
迪人们去构造通用码，它是归纳推理的一个很好基础，奥克姆剃刀 （“ M 简单的解释是说好的"）的 
^ 一种公式化，同时也有助于加深对物理学、 il 箅机科学和通信理论中的基本思想的理解。 

在正式给出科尔莫戈罗夫复杂度的槪念之前，作为例子，我们先给出3个字符串。它们是 


1. 0101010101010101010101010101010101010101010101010101010101010101 

2 . 01 loioioooooiooi mooiiooi loon in noon 101 il looiiooiooiooooiooo 

3. 110111100111010111110110111 noi 110101101111000101110010100111011 

这些序列中的每一个所对应的最短二元计算机程序是什么？第一个序列肯定非常简单。它 
由32个01对构成。第二个序列看上去是随机序列，并且也通得过绝大多数的随机性检验，然而 
它实际上是无理数乃 -1 的二进制展开的起始程序段。所以，这仍然是一个简单序列。第三个序 
列仍然看起来像一个随机序列，只是1所占的比例不接近于1/2。我们将假定它在其他方面是随 
机的。已经证明通过描述序列中1的数目然后以字典序给出在所有具有相同数目1的序列中 

该序列的下标，可以用大约 log « + 比特给出该序列的一个描述。这仍然大大少于序列中 

的 n 比特。我们再次推断虽然该序列是随机的，但它仍然是简单的。然而，在这种情况下，其简 
单程度与前两个序列并不一样，前两个序列的程序长度是常数。实际上，第三个序列的复杂度是 
与 n 成比例的。最后，我们珂以想像由投掷硬币生成的真实的随机序列 Q 这样的序列共计2” 个， 
它们都是等可能的。很可能如此-个随机序列是不能被压缩的（也就是，对于这样的序列，不可 
能找到简单到比指令“输出下面的 oioiioomoio … 0 ” 更短的程序，再短的程序将无法运行了）。 
所以，真正的随机二元序列的描述复杂度至少要与序列本身一样长。 
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这些是最基本的思想。剩下需要证明的是内在复杂度的概念是独立于计算机的，即最短程 
序的长度不依赖于计算机。乍一看，该问题似乎无意义。在不计较一个附加常数的意义下，它是 
正确的。对于高复杂度的长序列，这个附加常数(它是允许一个计算机模拟另一个计算机的预编 
程序的长度)是可忽略的。 

14.1 计算模型 


为给出算法复杂度的正式概念，我们首先讨论关于计算机的可接受模型。绝大多数计算机 
都能够模仿其他计算机的行为。从这意义上说，除了最普通的计算机外，所有计算机都是通用 
的。我们会简略地叙述一下最典型的通用计算机， 即通用图灵机， 它也是概念上最简单的通用计 
算机。 

在1936年，图灵 ( Turing ) 反复思考着这样一个问题，即一个有生命的大脑中的思想是否可以 
等价地用无生命部件的组合来把捤。简单地说， 就是一 台机器能否思考？通过分析人类的计算过 
程，他对于这种计算机做了一些限制。明显地，人类思考，创作，再思考，再创作，如此循环往 
复。他将计算机考虑成一个在有限符号集上进行运算的有限状态机(一个无限符号集中的符号在 
有限空间内不能被区分)。一个存储了二元程序的程序磁带被从左向右地传入到这个有限状态 
机。在每一个时间单元，机器检査这个程序磁带，在工作磁带上做出标记，根据它的转换表转换 
它的状态并且调用更多的程序。这种机器的操作可以用一个有限的转换列表来描述。图灵论证 
了这个机器可以模拟人类的计箅能力。 

继图灵的工作之后，人们证明了每-•个新的计算体系都可以简化为一个图灵机，反之亦然。 
特别地，我们所熟悉的带有 CPU , 内存和输人输 出配置 的数字计算机可以由一个图灵机来模拟， 
并且反过来也珂以模拟一个图灵机。这启发 Church 撰写出了现在被脊为 Church 命题的论文，该 
文章 指出： 在可以计算相同函数族的意义 T , 所有（充分复杂的)计箅模型都是等价的。它们可计 
箅的函数类与我们直觉上的可有效计算的函数类概念相一致，即对于这类函数，均存在一个有限 
的命令或者程序使得计算机在机械既定的有限个计箅步骤内产生出需要的计箅结果。 

在本章中，我们要始终记住图 14-1 中所示的计算机。在计算的每一步，计算机从输人磁带 
上读取一个符号，根据本身的状态转换表改变状 
态，可能在工作磁带或输出磁带上写人一些东西， 一 … w 

然后移动程序读取磁头到程序读取磁带的下一个 
单元。机器仅从右向左读取该程序，从不逆向读 — 

取，因此所有程序形成了一个无前缀集。不存在一 —工_»带 

个可以导致计算停止的程序是另一个这种程序的 ffl 14-1 图灵机 

前缀。对于无前缀程序的限制直接导出在形式上 
类似与信息论的科尔莫戈罗夫复杂度的理论。 

我们可以将图灵机看作一个从有限长度二元串的集合到有限或无限长度二元串的集合的映 
射。在一些情况下，计算并不停止，并且在这种情况下，函数的值被说成 是无定义的。 由图灵机 
可计算的函数 / : io ， ir - no,ir uio ， ir 构成的集合称 为部分递归函数集。 


_ 珀出磁術 

有限状态机 W •: 
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14.2 科尔莫戈罗夫复 杂度： 定义与几个例子 


设^:是一个有限长度的二元串， W 是一个通用计算机。/(工）表示二元串: r 的长度。当给定 
一个程序时，令以 （/)) 表示计算机 W 关于程序 p 的输出。 

我们定义二元字符串 x 的科尔莫戈罗夫(或算法)复杂度为 x 的最小描述长度。 
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定义 关于一个通用计算机 ZY , 二元串 * r 的科尔莫戈罗夫 复杂度 定义为 

Ku ( x ) = ^ l ( p ) (14-1) 

即能够输出: r 并且停止的所有程序的最小长度^于% 1 ， K ~(: r ) 就是所有可由计算机 W 说明的 x 
的描述中的最短描述长度。 

为了理解科尔莫戈罗夫复杂度，我们叙述一个有用的 技巧： 如果某人能够向另一人描述一个 
序列，他的方法明确地给出在有限步骤内完成该序列的一个计算，则二人交流过程中所使用的比 
特数是科尔莫戈罗夫复杂度的一个上界。例如，指令 “Prim out the firet 1，239, 875, 981， 825, 
931 bits of the square root of e .” 假设每个字符 8 比特 ( ASCII ), 可以看出这 73 个确切的字符的程 
序揭示了这个天文数字的科尔莫戈罗夫复杂度不会超过 (8)(73) =584比特。在具有该长度（大于 
466] 千的五次方 比特) 的数字中，绝大多数的科尔莫戈罗夫复杂度为1, 239, 875, 981, 825, 931比 
特。存在计算 e 的平方根的简便算法这一事实提供了一种降低描述复杂度的方法。 

在上面的定义中，并没有提及任何关于 x 的长度的话题。如果计算机已经知道 x 的长度， 
则我们能够定义已知 /(: r ) 下的 条件科尔莫戈罗夫复杂度为 

K 以 （: r | /(: r )> = ，以川 ”/(/>) (14-2) 

此即在 z 的长度固定条件下，计算机 ZY 可得到 ： r 长度。 

需 要注意的是， Kw ( xb ) 通常定义为 KwUI ; y ,，）， 其中，表示 . v 的最短程序。这是为 
了回避某些轻微的不对称性，但是这里我们并不使用这个定义。 

我们首先证明科尔莫戈罗夫复杂度的一些基本性质，然后考虑各种各样的例子。 

定理 14.2.1( 科尔莫戈歹夫复杂度的通用性）如果 W 是一个通用计算机，那么对于任意其 
他的计算机欠，对所有的二元牟 xeioji \ 均有 

K ^/( x )< K ^( x ) + c ^4 (14-3) 


其中常数 Cj 不依赖于 X 。 

证明•.假定对 T 计算机>1我们有一个输出X的程序 /U。 于是 j(/u) = z。fe 我们可以在该 
程序之前增加一个模拟程序5^4,它告诉计算初 Z/ 如何模拟计算 机4。 然后， 计箅机 W 将解 释关于 
«4的程序中的指令，执行对应的计算并且输出该程序 W 是 p = M /M， 它的长度是 

/(/>) = /(M) + /(/u) = c_4 + /(/M) (14-4) 
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其中是模拟程序的长度 3 因此，对所有的二元串 : r , 有 






/(P)< 


min 

A(p)-j 


(/(/>) + c ^) = K ^( x ) 




(14-5 )D 


该定理中的常数 ov 可以非常大。例如，>1可以是一个安装了具有大量功能的软件系统的大 
型计算机。计算机以巧以是一个非常简单的微处理器。模拟程序要包含所有这些函数的实施细 
节，事实上，就是大型计算机上所有可获得的软件。至关重要的一点是该模拟程序的长度独4于 
将被压缩的二元串 a •的长度。对于充分长的 x , 这个模拟程序的长度可以忽略，并且当我们讨论 


科尔莫戈罗夫复杂度的时候，可以根本不提这个常数。 

如果 乂和以 都是通用的，则对所有的 I ,我们有 

lK ^( x )- K ^( x)|<c (14-6) 

因此，在后面所有进一步的定义中，我们将省略所有关于以的下标，而假定未指明的计箅机 W 是 
一个固定的通用计算机。 

定理 14.2.2 (条件复杂度小于序列的长度） 

K(x I /( x ))^/( x ) + c (14-7) 


证明： 输出的一个程序可以是 
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Print the following /-bit sequence ： x 1 Xi , * , X/( x > 

注意由于给定/，所以不需要额外的比特来描述它。由于给出了 l ( x ) t 故该程序是自定界的，于 
是程序何时结束也就明确定义了。这个程序的长度是 /(■!：) + r 。 □ 

如果不知道串的长度，需要一个额外的停止符号或者使用一个如下面定理的证明中所描述 
的自动断句方案。 

定理 M .2.3( 科尔莫戈罗夫复杂度的上界） 

K(x)<K(x|/(x)) + 21og/(x) + c (14-8) 

证明： 如果计算机不知道 /(:r), 定理 14.2.2 的方法就不再适用。我们必须有某种方法来通 
知计算机什么时候到描述序列的比特串的结尾处。我们来描述一个简单但低效的方法，它使用序 
列01作为一个“逗号”。 

假定 Z (: r ) = «。为了描述 /( x ), 将 n 的二进制展开中的每一位重复 两次； 然后用一个01结 
朿这个描述，以便计算机知道已经到了 ri 的描述的结尾处。例如，数字 5( 二进制表示为 101) 将^68 
描述为11001101。这个描述需要 2 nognl + 2 比特。于是，含有 /( z ) 的二进制表示的程序不会使 
原有的程序长度增多超过 21 og /( x ) + c 比特，由此我们得到定理中的上界。 □ 

描述 n 的一种更有效的方法是如下的递归方式。首先指定 n 的二元表达中的比特数 (logn), 

然后指定; 2 的实际比特。为了指定 n 的二元表达的长度 bg«, 可以使用低效的方法 (21oglogn) 或 
者有效的方法 (loglog;i + …）。如果在每一层都使用有效的方法，直到我们需要指定的数很小，贝0 
我们可以用 logrz + loglogw + logloglogn +…比特来描述 n ，其中加法一直持续到 M 后的正项。有 
时候将这个迭代的对数和写作 log # ” D 因此，定理 14.2.3 可以改进为 

K(x)<K(xl/(x)) + log # /(x) + r (14-9) 

下面我们要证明只存在极少数的具有低复杂度的序列。 

定理 14.2.4 ( 科尔莫戈罗夫复杂度的下界）复杂度 K (: rKife 的字符串的數目满足 

IUeiO,l| - ： K(x)<ife||<2* (14-10) 

证明： 短程序并不很多。如果要将所有长度小于々的程序列出的话，我们有 


厶 ,0,100,01,10， llr “，“.， lP“l (14-11) 

» T ~:~^ ^7^ 

而这样的程序的总数是 

1+2 + 4 + — + 2卜 | = 2*~1<2* (14-12) 

由于每个程序仅产生一个可能的输出序列，所以复杂度<々的序列的数目小于2 4 。 □ 

既为了避免混淆，也为 f 本章剩余的部分的叙述方便，我们需要对二元熵函教引人一个特殊 
的记号 

H 0 (/ »)= -/» Iogp-(l - p ) log(l - p ) (14-13) [469] 

于是，当我们写出仏•公 X , ) 时，其意思是- XJogX n - (1 ‘ XjlogCl - 又）而不是随机 

变置又，的熵。在不发生混淆的情况下，将简单地用 H ( p ) 代替 H 0 ( p) o 

现在来考虑科尔莫戈罗夫复杂度的各种各样的例子。虽然复杂度依赖于计算机，但仅是依赖 
一个附加常数。为明确起见，考虑一个能够接受没有歧义的英语指令（二进制格式数字）的计算 
机。我们使用即将在引理 17.5.1 中证明的不等式 

. 气 ”)， 技 0 ，” (14 - 14) 
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例 14.2.1 (n 个 0的 序列） 如果假定计算机知道 n , 那么输出该字符串的一个短程序是 

Print the specified number of zeros 

这个程序的长度是固定的比特数，从而不依赖于 n 。 因此该序列的科尔莫戈罗夫复杂度为 c , 
并且 

K (000 … 0 U ) = r Vw (14-15) 

例 14.2.2 U 的科尔莫戈罗夫复杂度） ir 的前71个位可以利用简单的级数表达式计算。如 
果计算机已经知道”，则这个程序的长度是一个很小的常数。因此， 

K (丌 w •丌 ” I w ) = c (14-16) 

例 14.2.3 ( Gotham 的 天气） 假设让计算机输出 Gotham 镇 （纽 约市的别名） n 天的天气。可 
以写一个包含完整序列:… a 的程序，其中 : r , = l 表示第/天下雨。但是，由于各天天气 
之间高度相关，所以这种方法是低效的 c 我们可以为该序列设计各种各样的编码方案以便将这 
种依赖因索考虑在内。一个简单的方法是找到一个马尔可夫模型来逼近该序列（使用经验转移概 
率），然后使用针对这个槪率分布的香农码来对该序列进行编码。我们可以用 O ( logn ) 比特来描 

470] 述经验马尔可夫转移概率，然后使用 log 比特来描述: r , 其中/>是特定的马尔可夫概率。假 

定天气的熵是1/5比特/天，我们可以使用大约”/5比特来描述”天的天气，因此 

fC(Gotham 的天气 I + 0( logn ) + c (14-17) 

例 14.2.4 ( 形如01010101…01 的重复 序列）对于这样的序列，一个短程序足矣。仅需输出 
01对的数目。因此， 

fC (010101010 …01 ln ) = C (14-18) 

例 14.2.5 ( 分形） 分形是芒德布罗 （ Mandelbrot ) 集的一部分，由一个简单的计算机程序生 
成。对复平面中不同的点 G 给定映射％ + 1 = 4 初始点 Zo = 0), 我们来计算使 M 超过一个 
特定阈值所*要的迭代次数。然后根据需要的迭代次数将 c 涂上颜色。所以该分形作为例子可 
表达这样一个信息：一个对象肴上去似乎非常复杂但实际上却非常简单。它的科尔莫戈罗夫复 
杂度本质上为零。 

例 14.2.6 ( 蒙娜 丽莎） 我们可以从这幅油画的布局和点缀物中获得许多有用的信息。我们 
可以—个大约为1/3的压缩比或者利用一些已经存在且容易描述的图像压缩箅法来压缩该图像。 
因此，如果蒙娜丽莎这幅画中像素的数目是”，那么 

K (蒙娜丽莎 In )< f + c (14-19) 

例 14.2.7 ( 整数”）如果计算机知道整数的二进制表示的位数，则只需要提供这些位置上 
的值。该程序的长度将为 r + log «。 

通常计箅机并不知道该整数的二进制表示的长度。所以，我们必须以某种方式通知计算机在 
什么时候描述结束。利用推导出式 （14-9) 时所使用的描述整数的方法，可以看出一个整数的科 
尔莫戈罗夫复杂度的一个上界为 

K ( n )^ log ' n + c (14-20) 

例 14.2.8 (含有 k 个1的 n 比特长度序列） 我们能够将一个含有々个1的”比特长的序列 
进行压缩吗？ 

我们首先会猜测不能，这是因为我们要求该序列中的比特必须具有精确的重复规律。然而 
_ 考虑下面的程序： 
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Generate , in lexicographic order，all sequences with k ones ; 
Of these sequences , print the i th sequence . 


该程序将输出所需的序列。该程序中仅有的两个变童是 H 范围是10，1， …， n |) 和 £( 条件范围是 
1，2，"、(^)|)。这个程序的总长度是 


/(/>) = c + logn + log (^) 

+ 1呢，，+ ) -士 logw 


(14-21) 

(14-22) 


根据式（14.14)有(:)<^^20\ 其中/» = k / n 、 ( 7 = 1 -/*, k ^ O . k ^ no 我们已 
经使用 log ” 比特来表达 h 于是，如果= I 那么 

卜篇 

K ( j - lP jr 2 ,"-, J： n l wXr ? H 0 (-^-) + jlogr ? + c (14-23) 


我们可以将例 14.2.8 概括成下面的定理。 

定理 14.2.5 二元串 x 的科尔莫戈罗夫复杂度的上界为 


K ( x l x 2 — x „ I w )< « H 。 (士 2工.) + jlogw 


(14-24) 


证明： 利用例 14.2.8 中所描述的程序，立即可得该结论。 □ 

注释： 假定 : r € 10, ir 是我们所希望压缩的数据，并且考虑使用程序 p 来压缩该数据。只 


有当 /( p )</ U ) 或 


K ( xXUx ) 


04-25) 


时，我们才可能成功地压缩该数据。一般来讲，当序列 x 的长度 /( x ) 较小时，科尔莫戈罗夫复杂 
度的表达式中所出现的常数将超过 /(* r ) 的贡献。因此，只有当 /( x ) 非常大时，这个理论才是有 


用的。在这种情况下，我们可以放心地忽略掉不依赖于 /( x ) 的常数。 
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14.3 科尔莫戈罗夫复杂度与熵 

现在我们考虑-•个随机变量序列的科尔莫戈罗夫复杂度与它的熵之间的关系。一般地，我 
们证明随机序列的科尔莫戈罗夫复杂度的期望值接近于香农熵。首先，证明所有程序的长度满 
足 Kraft 不等式。 . 

引理 14.3.1 对任意的计算机以， 

2 2部 <1 (14-26) 

证明：对于任意程序，计算机一旦^止 k 行，那么它不再理会任何其他输入。因此，不存在 
任何其他的停止程序以这个程序作为前缀因此，所有的停止程序形成一个无前缀集，并且它们 
的长度满足 Kraft 不等式(定理 5.2.1)。 

下面证明对于有限字母表的独立同分布过程， -^ EK ( X "| W )^ H ( X)o 

定理 14.3.1( 科尔莫戈罗夫复杂度与熵的关系）假设随机过程 IX , I 为 i . i . d 且服从 概芈密 

度函数其中 A 是一个有限字母表。令 / U ”〉 = II /( x ,), 那么对于任意的 w ， 存在 

1*1 

一个常数 c ， 使得 




从而 


(14-27) 


H(X)< i -S/(x n )K(x" I n)<H(X) + ^ 


E - L K ( X n \ n )^ H ( X ) 


(14-28) 
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证明：先考虑下界。容许的程序必须满足前缀性质，这样它们的长度满足 Kraft 不等式。我 
们将满足 U ( p ,7 i ) = ^ 的最短程序/>的长度分配给每个 o :”。 这些最短的程序也满足 Kraft 不等 
式。从信源编码理论我们知道期望码字长度不小于熵。因此， 

U/(x")K(or- I n)>H(X l ,X 29 -,X n ) = nH(X) (14-29) 


接下来我们讨论 A 是二元字母表时的上界，即 X lt X 2t 
14.2.5 的方法，我们可以给出二元串的复杂度的上界 


是 i . i . d 〜 BernouUi ( 0)。使用定理 


K ( xiX 2 — x h 1 n )< nHo (+ S * i )+ 士 log ” + c 


因此， 


EK { X x X 2 - X n 


)< n £ H 0 (七与 ylogn 
If /。 (士与 £ X ,)+ ylogn 


(14-30) 


(14-31) 


(14-32) 


= nH 0 ( d ) + j\ogn + c (14-33) 

其中 （ a ) 可以由 Jensen 不等式以及熵的凹性得到。于是对于二元过程，我们已经证明了定理中的 
上界。 

对于非二元情形的有限字母表， 我们酊 以使用相同的技巧。我们首先用 （ IA*I - lMogn 比特 
(因为最后一个符号的频率可以通过其余符号的频率计箅出来)来描述序列的型（每个字母表符号 
出现的经验频率在第 11.1 节中定义过）。然后，我们描述具有相同型的序列之集中的序列的指 
标。（正如第11章中所讲的）由于这个型类中的元索数目少于 2"^〃/ (其中 P / 是序列: r ” 的型）， 
因而，串 《 r " 的两步骤描述法的长度满足 

K (^ UX « H ( P x -) + ( l^l -Dlogrz + c (14-34) 

接下来与二元情形中一样，对不等式两边取期望并且应用 Jensen 不等式，有 

EKiX^ln )^ nH ( X ) + ( I 叫- 1 )\ogn + c (14-35) 

两边同除 n 给出定理中的上界。 □ 

去掉关于序列长度的条件作用是直截了当的。使用类似的手法，可以证明，对于所有 的”， 
下面不等式成立 

H ( X ) < + E / U ”) KU ") < H ( X ) + K 1 : 1 ) - 1 泌 + 含 （14-36) 

x 

下界是基于 K ( x ”) 也是信源的无前缀码这个事实推出的，而上界则是基于不等式 

K ( x B XK ( x "| n ) + 21 ogn + c 

推出的。于是， 


(14-36) 


E-KUO-^HiX) 


(14-37) 


并且当计算机到达熵界时，可压缩性也就达到了 
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14.4 整数的科尔莫戈罗夫复杂度 

在 14.3 节中，定义了二元串的科尔莫戈罗夫复杂度是在通用计算机上输出该二元串的最短 
程序的长度。推广这个定义，可以定义整数的科尔莫戈罗夫复杂度为它所对应的二元串的科尔 
莫戈罗夫复杂度 u 

定义整数《的科尔莫戈罗夫复杂度为 

K ( n )= min l ( p ) (14-38) 

整数的科尔莫戈罗夫复杂度的性质与比特>串^¥尔莫戈罗夫复杂度的性质非常相似。下面 
的性质是对应的字符串的性质的直接推论。 

定理 14.4.1 对于通用计算机4和 W 


Kn(n)^Ky\(n) + 

另外，由于任何数字都可以由它的二进制展开式给出，我们有下面的定理。 

定理 14.4.2 

(14-39) 

K(n )^log' n + c 

定理 14.4.3 存在无穷多个整數 / I 满足 /CU)>logri 。 

证明： 由引理 14.3.1 知 

(14-40) 475 

v 2 -^»><i 

且 

(14-41) 

^2-^" = E ~ = 00 

但是，如果对于所有的 ”>” 0 有 K (”）< log ”， 則 

(14-42) 

22" KU) > 22 如 = 00 

颼藤 11^ 鐲■罐 A 

(14-43) 

9 W 

这是一个矛盾。 

14.5 算法随机序列与不可压缩序列 ' 

□ 

从 14.2 节中的例子可以很明显地看出，存在一些很容易描述的长序列，如7 
的前100万位。同样，也存在着一些很容易描述的大整数，例如 

r 的二进制展幵 



或(100!)!。 

我们接下来 证明： 虽然存在一些简单的序列，但是大多数的序列并没有简单的描述。类似 
地，大多数的整数并非简单的。因此，如果我们随机选取一个序列，我们很可能选取的是一个复 
杂序列。下面的定理说明一个序列可以被压缩超过 々比 特的槪率不会超过2^。 

定理 14.5.1 设 U 2 , …，为服从 Bcmoulli ( + ) 的一个随机过程。則 

(14-44) 

证明： 


尸-是） 
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/ >(工1， 工2,…，工”） 


(14-45) 


(14-46) 


=1 UwavKUiV.h 
< 2 n ~ k 2 - n (由定理 14.2.4) 


n ) < n - k \ \ 2~' 


< 2"-*2_” （由定理 14.2.4) (14-47) 

= 2 ' k (14-48) 

□ 

因此大多数序列的复杂度接近于它们的长度。例如，复杂度小于 n -5 的长度为 n 的序列的 
比例小于1/32。这促使我们给出下面的 定义： 

定义称一个序列…是算法 随机的 （algorithmically random ) ,如果 

K ( xix 2 '"^ n I n)^n (14-49) 

通过计数上的讨论，可注意到对每一个 n 至少存在一个序列: r ”， 满足 

K ( x H \ n)>n (14-50) 


定义我们称无限串 ： r 是不可 压缩的 （ incompressible ), 如果 

lim ^l£2£3r^lZL) = 1 


(14-51) 


定理 14.5.2( 关于不可压缩序列的强大数定律）如果串 XiXz …是不可压缩的，則在 

I (14 - 52) 

的意义下它满足大数定律。因此，在任何不可压缩的 0-1 串中，0和1的比例几乎相等。 

证明 ：令^ =丄 fior , •代表中1的比例。然后利用例 14.2 的方法，可以写出一 

n <-i 

个长度为 nH 0 ( d n ) + 21 og(nO + c 的程序来输出 x "。 于是， 

〈仏 + (14-53) 

根据不可压缩假设，对于充分大的我们有如下的下界估计。 

1- c < K ^ W | yl ) < H 0 ( ^) + 2^ + ^ (14-54) 

n n n 

于是， 


(14-53) 


(14-54) 


H 0 (^)>1-^ —-c (14-55) 

通过观察的图像（图 14-2) 的观察可说明， 
对于充分大的 n , 九接近于1/2。具体来说，上面 
的不等式籩含 

沒„€ (皆-〜，+ + 〜） （14-56) 

其中心的选取须满足 

H 。 (士 一 +卜 上 (14-57) 
此意味着当«时，九—0。因此，当 00 时， 

士 Sx :— i 。 a 



图 14-2 关于/»的函数 
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我们现在已经证明了从0和1的比例几乎相等这个意义上来说，不可压缩序列看上去是随机 
的。一般地，我们可以证明如果一个序列是不可压缩的，那么它将满足所有关于随机性的可计算 
的统计检验(否则，识别出使 x 失败的检验将降低 i 的描述复杂度，从而产生一个矛盾。）。从这 
种意义上来说，关于随机性的算法检验是终极的检验，在它之中包括了所有其他的可计算的随机 
性检验。 

我们现在证明关于 Bernoulli (幻序列的科尔莫戈罗夫复杂度的一个大数定律。一个 i . i . cL 且 
服从 BernouUi (0) 过程的二元随机变量序列的科尔莫戈罗夫复杂度接近于熵在定理 
14.3.1 中我们已经证明了随机伯努利序列的科尔莫戈罗夫复杂度的期望值收敛于熵[也即， 

E iKUiXz …； O n )— 虬(的]。下面我们将期望去掉。 

定理 14.5.3 设 U 2 , …尤为 i . i . d . 的且服从 BcmouHi (<9) 。则 

依概率 （14-58) 

n 


证明： 令又 „ = 士2久, fiX lf X 2 f -, X n 4 1 1 的比例。然后使用式 （14-23) 中所描述的方法, 

我们有 _ 

K^XiXyX” U)<nH 0 OU + 21 orw + c ( 14 - 59 ) 

并且根据弱大数定律，依概率又„-心我们有 

Prlj / Cd ；^ …(幻彡 e |— 0 (14-60) 

相反地，我们能够界定所 有复杂 度明显小于熵的序列的总数。由 AEP , 可以将序列的集合分为典 
型集和非典型集两个部分。典型集中至少有 （1- 序列。在这些典型序列中至多有 
2” ( H 。⑷- f ) 个序列的复杂度小于 WHo (約 - c )。 随机序列的复杂度小于(約 - c ) 的概率是 


Pr(K(X" I n)< n(H 0 (d)-c)) 

<Pr(X"^ Ai" > ) + Pr(X" € Ai"\K(X" I n) < n(H 0 (6) - c)) 

<c+ E 〆 ？） 04-61) 

<€ + s 2 •” (H 。⑼ -*) (14-62) 

/•A:.’. KU. I ■ >< ■(〜(#)-f > 

< e + 2" <H o ⑷。⑻ (14-63) 
=e + 2"" <c " f) (14-64) 

若适当选择 e , ”和 c , 该数值町以任意小。因此，随机序列的科尔莫戈罗夫复杂度以高概率接近 
于熵，并且我们有 

K(Xi,X2 ， *--»X n I n 


Ho (^) 依概率 


( 14 - 65 ) 

□ 


14.6 普适概率 


假设向计算机输入一个随机程序。想像一个猴子坐在键盘上并且随机地敲奋键盘。等价地， 
将一系列的均匀硬币投掷输人一个通用图灵机。无论是哪种情况，大多数的字符串对计算机不 
产生任何意义。如果一个人坐在一个终端处随机地敲击键，他将可能得到一个错误消息（即计算 
机将输出空串后停止）。但他也会以一定的概率敲击出某些有意义的东西，计算机则会输出这个 
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东西。这个输出序列看上去还随机吗？ 

根据我们早先的讨论，很明显，长度为 n 的大多数序列的复杂度接近于 w 。 由于输入程序 
的概率是所以得到短程序要比得到长程序的可能性更大。当所有短程序产生长字符串 
时，它们不产生随机长字符串，而会产生具有容易描述结构的字符串。 

输出串上的概率分布远非均匀的。在计算机所诱导的分布下，得到简单字符串的可能性要大于 
得到相同长度的复杂字符串的可能性。这促使我们接着定义字符串上的一个普适概率分布的概念。 
定义字符串的普适概牟 (universal probability ) 为 

PiY(x) = Y, 2' np) = ?r(U(p) = x) (14-66) 

它表示输人序列 p , ，/ > 2 , …服从随机地投掷 均匀硬 币时，程序输出字符串: r 的概率。 

从许多角度来看，上述定义的概率是普适的。我们能将它考虑为在自然界中观察一个串的 
概率； 其潜在意图是简单的字符串要比复杂字符串被使用珂能性更大。例如，如果希望描述物理 
定律，我们会认为用最简单的串来描述的定律是最可靠的。这个原则即是著名的奥克姆剃刀，几 
个世纪以来它一直是指导科学研究的普遴原则——如果存在许多与观察到的数据相一致的解释， 
选择最简单的。在我们的框架中，奥克姆剃刀原则等价于在所有能够产生一个给定串的程序中， 
选择最短的程序。 

由下面的定理，我们可称这个概率密度函数是普逯的。 

定理 14.6.1 对于每一个计算机 *4, 对每一个串 ： r €|0, ir ， 有 

Pu(x)>c A P A (x) (14-67) 

其中常数仅依赖于 W 和>1。 

证明： 根据 14.2 节中的讨论，对每一个可以输出 x 的4的程序 p ', 存在一个长度不超过 
+ 的 W 的程序/>,它是通过添加一个对于 *4 的模拟程序的前缀而产生的。因此， 

Pu ^) = E 2-心)彡 X 2 - np )- c A = Pa(x) (14-68) 

□ 

对于取自二元串上的一个可计算的槪率密度函数的任意序列，它都可以看作是由某台计算 
tM 作用于一个随机输入而产生的(可由作用于随机输人的槪率逆变换得到）。因此，普适概率分 
布包括所有可计算的概率分布的混合。 

注释(有界似然比） 特别地， 定理 14.6.1 保证了假设 X 服从尸 w 与假设 X 服从 匕 的一个似 
然比假设检验必然具有有界的似然比。如果以和4是通用的，则对任意的 o :， 比值 Pu ( x )/ P A ^ x ) 
必然具有一个远离0和无穷大的界。这与其他的简单假设检验问题形成鲜明对比（如 BemDuUi (^) 
与 BenwuUi (士)>，此时当样本 ft 趋近于无穷时，似然比则趋近于0或《>。很 M 然，所有可计箅分布 
的混合可能是某个服从某个可计算的概率分布的数据的真实分布，我们永远都不可能完全排 
除这种情况。从这种意义上说，我们不能排除宇宙是由一只猴子在计算机旁打字而得到的一个输 
出的可能性。然而，我们可以排除宇宙是随机的假说(猴子没有计算机)。 

在 14.11 节中我们将证明 

P u (x)^2~ KU) (14-69) 


由此可以说明， KU ) 和与通用算法的复杂度测度具有相同的地位。由于 

是关于普适概率分布(: r ) 的理想码字长度（香农码字长），因此这特别有意思。 

我们用一只打字的猴子与一只操作计算机键盘的猴子的例子来结朿本节。如果打字的猴子 


在打字机上随机地敲*键钮，则它打出莎士比亚作品（假设文章是100万比特长）的概率为 
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2_ 1 000 000 。然而，如果让计算机跟前的猴子来敲出同样的莎士比亚作品，则概率为 Z — 

〜2 - 250 000 。虽然这个值仍非常小，但这已经是坐在枯燥的打字机旁的猴子的概率的指数倍数了。 

这个例子说明一台计算机的随机输入比一台打字机的随机输人更有可能产生“有趣的”输出。 

我们都知道计算机是一个智力放大器。很明显，它也可以从无意义中产生出有意义。 

14.7 科尔莫戈罗夫复杂度 

考虑下面的悖论： 

该 命趙是错的。 _ 

这个悖论有时候用一个二重命题的形式 给出： ® 

下一个命題是错的。 

前一个命題是对的。 

这些悖论都是所谓的 Epimcnides 说说悖论的 翻版，该悖论道出了卷人自指涉的陷阱。在1931年， 

哥德尔 ( G 6 del ) 使用这种自指涉的思想证明了任何有趣的数学体系都是不完备的，在每个体系中 
都存在这样一些命题，它们虽然是正确的，但却在本系统内部不能得到证明。为了实现这个，他 
将定理和证明转化为整数，并构造了上述形式的一个命题，因此，它无法被证明是正确的或错误 
的。 

计算机科学中的停止问題与哥德尔 Godel 的不完备定理之间有着非常紧密的联系。从本质 
上讲，它是指对于任意的计算模型，都不存在能够决定一个程序是停止还是继续(永远继续下去） 

的一般算法。注意它并不是一个关于任何具体程序的命题。相当清楚，存在许多这样的程序，我 
们很容易证明它们停止或者永远继续。停止问题说明我们不能对所有的程序回答这个问题。原 
因仍然是自指涉的思想。 

对于一个现实世界中的人，停止问题可能没有任何直接的意义。将其看作是计算机(假设无 
限的存储器和时间）可以实现的亊情与计箅机不可实现的亊情(例如证明数论中所有正确的命题） 

之间的分隔线，停止问题具有十分重要的理论意义。哥德尔的不完备定理是20世纪要的数学 
成果之一，人们一直在探索该理论的各种推论。停止问题是哥德尔不完备定理的一个本质的例子。 

关于停止问题的算法的不存在性的命题推论之—是科尔莫戈罗夫复杂度的不可计算性。通常 
找到最短程序的惟一方法是将所有的短程序都试-一下，然后观察哪些可以完成这项工作。然而， 

在任何时候都有一些短程序可能不会停止，而且也不存在有效的(有限的，机械的)方法来预测是否 
它们会停止以及它们将输出什么。因此，不存在能够找到输出一个给定串的最短程序的有效方法。 

科尔莫戈罗夫复杂度的不可计算性是 Berry 悖论 的一个特例。 Berry 悖论寻找不能使用少于 
10个词来命名的最短数字。没有任何数可以是该问駛的解，比如，像1 UH 121这个数字，由于 
它本身的定义表达就少于10个字长。这揭示了包含 既可命名又可描述的 问题，它们将变得太难 
以把握以至于在没有一个严格的限定情况下就不能使用。如果我们规定“凡能被计算机输出就是 
可以被描述”的话，那么允许用少于10个字描述的最小数字(但不可计算）就可以解决 Berry 的悖 [m 
论。“描述，，并不是一个计算该数字的程序。 E . F . Beckenbach 曾指出一个类似的问题(他将数字 
划分为无趣或有趣两个 类）： 最小的无趣数字一定是有趣的。 

如本章开始时所说明的，我们并不真正盼望实践者能够发现针对一个给定串的最短计算机 
程序。尽管由于越来越多的程序被证明产生这样的字符串，前面给出的科尔莫戈罗夫复杂度的 
上界估计可以收敛于真实的科尔莫戈罗夫复杂度，但是最短的程序是不可汁箅的。（当然，问题 
是人们本可能已经发现了最短的程序，但永远也不会知道有没有更短的程序存在。）即使科尔莫 
戈罗夫复杂度是不可计算的，但它提供了一个可以在其中考虑随机性和推理问题的框架。 
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14.8 Q 

在这节中，我们介绍 Chaidn 的神秘魔术数它有许多极其有趣的性质。 

定义 

n= E 2 - np) (14-70) 

户:停止 

注意 n = Pr ( W (/>) 停止），即它是给定的通用计算机在输入为一个服从 Bemouili 过程的 
二元串的条件下的停止概率。 

由于可以停止的程序是无前缀的，它们的长度满足 Krah 不等式，因此上式的和永远在0和 
1之间。设…％表示的前”位。 fi 的性质 如下： 

1. 是不可 计算的。.不存在有效的(有限的，机械的)方法来检验任意的程序是否会停止（停 
止问题），所以，不存在计算 Q 的有效方式。 

2. n 是“哲学家的一块石 头”。了解0精确到 W 位的近似值很重要，它将使得我们能够决定 
如下一些命题的 真伪： 所有可证明的数学定或可以否定的数学命题，只要它们可以用不 
超过；2比特的长度写出来。实际上，这蕴含着是当已知 n 的前”位时，必然存在一个有 
效的程序来判定71比特的定理的真伪。这个程序可能粍费任意长（但有限）的时间。当 
然，由于不知道 a 不可能有一个有效的程序来检验所有定理的真伪（哥德尔的不完备性 
定理)。 

用 n 的前 n 位的信息的程序的基本思想是十分简单的：我们运行的所有程序，直到 
对应的2」 ⑷的总 和大于或等于 n n = 0. %0> 2 ( a 为 n 截断后修正，它是已知的）时 
停止。由于 

n - a <2'" (14-71) 

由此我们得知，所有进一步能够以 2— …形式对 n 产生贡献的可停止程序的总和也必须 
小于2_”。这意味狩长度且尚未停止的程序已经不#在了。这使我们能够判断所有 
长度的程序是否会停止。 

为了完成证明，必须证明如下事实是可能的：如果一台计算机“并行”地运行所有可 
能的程序并且要求任意可以停止的程序将最终会发现停止。首先，列出所有可能的程序， 
以空程序 A 开始： 

A ,0, 1,00,01,10,11,000,001 ,010,011,- (14 72) 

然后，第一轮让计算机执行 A 的一个时钟 周期。 在下一轮中，让计算机执行 A 的两个时 
钟周期和程序0的两个时钟周期。在第三轮中，让它对前三个程序中的每一个执行三个 
时钟周期，如此下去。以这种方式，计箅机将最终运行所有可能的程序，并且运行它们的 
次数越来越多，以至于如果一个程序能停止，它将最终被发现停止。计算机追踪哪个程 
序正在被执行及其循环的次数，以便它可以产生一个所有可以停止的程序的淸单。于是， 
我们最终知道一个程序是否能在 n 比特之内停止。如果定理可以用 少于” 比特长度来叙 
述的话，这就使得计算机能够发现该定理的任何证明过程或者它的一个反例。对0的了 
解将先前不可证明的定理转化为可证明的定理。这里 n 的作用就像一个预言家。 

虽然从 Q 的神奇性角度来看，还有其他数宇也具有相同信息量。例如，如果列出程 
序清单并且按清单构造一个二进制实数，该数的第；位代表是否程序纟停止。则这个数字 
也可以用于决‘定数学中任意有限可驳斥的问题。但从信息含董角度来看，该数的信息浓 
度非常低。.这是因为需要用大约2” 个示性函数共计2” 比特长度去换取一个”比特长度 
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的程序是否会停止的决定权。而假如给定2” 比特，那么不需要任何计算可以立即说出任 
意长度小于 W 的程序是否会停止。相比之下， n 是信息最紧凑的表达，因为它是算法随 
机的且不可压缩的。 

利用 D 可以解决哪些问题？数论中许多有趣的问题都可以改写为寻找反例的问题。 
例如，可以直截了当地写一个关于整数变请和〃进行搜索程序使其在发现费马 
( FenmO 最后定理的一个反例时停止。所谓费马最后定理 是指： 对于 

x " + / = (14-73) 

没有整数解。另一个例子是哥德巴赫 （ Goldbach ) 猜想，它说明任意偶数都是两个素数之 
和。我们的程序将遍历从2开始的所有偶数，检査所有小于它的素数并且找到等于两个 
素数和的分解形式。如果遇到一个没有这种分解形式的偶数，它将会停止。知道该程序 
是否会停止等价于了解哥德巴赫猜想是否正确。 

我们还可以设计一个程序，让它搜索所有的证明，并且限制它只有当发现定理的一 
个证明时才能停止。如果定理有一个有限证明，这个程序将最终停止。因此，了解0的 n 
位之后，就可以发现所有如下命题的 真伪： 它们有有限证明或者是有限可驳斥的，都可以 
用少于《比特来叙述。 

3. D 是算法随机的0 • 

定理 14.8.1 0不能被压缩超过一个常數，即存在一个常數 c 满足 

K ( co 1 w 2 ,, * w n )^n - c 对任意的 w (14-74) 

证明： 我们知道，如果给定 n 的前《位，就可以判定任意长度的程序是否会停止。使用 
比特，可以计箅出 n 的前”个比特，然后生成一个所有长度<”的能够停止的程 
序的淸单，以及它们对应的输出。接着，我们找到不在该淸单上的第一个串 X 0 。 串就是科尔 
奥戈罗夫复杂度的 M 短串。这个输出 A 的程序 的复 杂度是 K(nj + c , 它一定至少 
与关于: r D 的最短程序一样长。于是，对所有的有 

K ( Cl n ) + c > K ( x 0 )>n (14-75) 

□ 

因此，且 D 不可能被压缩超过一个常数。 

14.9 万能博弈 

假定一个赌民参与连续博弈二元序列 jo , ir 。 如果他对该序列的情况一无所知，猜测 
序列: T 中每一个比特的公平收益率为 (2 兑1)。他应该怎样博弈？如果他已经知道该二元串的元 
素的分布，那么应该使用按比例的下注策略，这是因为在第6章已经证明了该策略具有最优增长 
率特性。如果他相信该二元串是自然出现的，那么从直觉上来说，简单字符串比复杂字符串出现 
的可能性更大。因此，如果他把按比例下注的思想拓展一下，可以根据该二元串的普适概率下 
注。例如，当赌民事先对二元串 x 有了解，那么只要每次将他的所有资金都押在 x 的下一个符 
号上，他就能够获得 2 / u ) 的相对增长率。用 S (: r ) 记对应下注方案 bUh E 6(> r ) = l 的相对收 
益，那么， SU ) 可以由如下公式给出 

S ( x ) =2 /( j ) 6( j ) (14-76) 

假设该赌民在二元串上的 " F 注比例为 W ： r )=2- KU) ， 那么该下注策略可以称作万 能博弈 
(universal gambling ) 0 我们注意到所有赌注的比例之和满足 

!>(:) = S2- KU) < E 2 - /( ^ = 0<1 

X X 戶：_止 


486 


(14-77) 
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他并不是将所有资金都押 进去。 为了简单起见，假定他将剩下的钱扔掉。例如，假设序列为 x = 
0110,下注在该序列上的比例为 6(0110), 那么所得到的相对收益总暈应该是由 2 lU ) b ( x ) = 2 4 b 
(0110) 加上他在所有前四位与: r 相同的赌注 6(0110 …)贏得的总量 3 
于是，我们有了如下的 定理： 

定理 14.9.1 一个賭民使用万能博弈在一个序列上获得的相对收益的对数值与该序列的复 
杂度之和永远不会小于这个序列的长度。用公式表示为 
487] logS ( x ) + K ( x )> l { x ) (14-78) 

注释这是第6章中的博弈守恒定理 W+H = logm 的翻版。 

证明： 直接从万能博弈 6( x ) = 2~ KU > 可以得到该证明过程。这是因为 

S ( x ) = ^2 l ( x ) b ( x )^2 lU ) 2~ K{jr) (14-79) 

其中，记号 x ' 3 x 表示 x 是/的前缀。两边取对数就得到了该定理。 □ 

该定理可以从多个方面来理解。对于具有有限科尔莫戈罗夫复杂度的序列 x 来说，对于所有/, 

(14-80) 

由于 V 是在/次公平机会收益率的博弈中玎以贏得的最大相对收益，所以这个方案确实渐近地 
接近于事先知道序列的方案。例如，如果你知道 X = D 〜…，其中 7 T , •是 7 T 的二进制展开中的 
数，则对所有的相对收益将是 S „ = SU ”)>2: r ” i 。 

如果该二元串由一个参数为/>的伯努利过程生成的，那么 

5(；^".；0>2”-出。 (>: .卜 2 咖”々2” 0 -"。 (/> 卜 2 宁六> (14-81) 

这样的增幅与第6章中介绍过的当赌民在亊先已经充分了解了分布的条件下所达到的增长率是 
相同的(在一阶近似意义下）。 

从这些例子中我们可以看出，随机序列的万能博弈确实是渐近地接近了使用真实分布的先 
验知识的策略。 


14.10 奧克姆剃刀 


488 


在科学研究的许多领域中，在观察数据的各种各样的解释中做出选择是非常重要的。在选 
择之后，我们还希望设计-•个 S 信水平来界定那些伴随已经被推断出的定律得到预测。例如，假 
设在有记录的历史中太阳每天都升起的假设下，拉普拉斯曾考虑过太阳明天再升起的概率。拉 
普拉斯的解决方法是基于太阳升起是服从一个未知参数0的 Bernoulli (幻过程的假设。他假定沒 
是单位区间上的均匀分布。利用观察到的数据，他计算了太阳明天将再升起的后验概率满足 


P(X n+1 = 1 I X n = = 1，…， Xi = 1) 

P(X W>1 = 1 ， X” = UX^t = 1, …， & 二 1) 

P(X„ - = 1，…， & = 1) 

[V +1 d^ 

^ - (14-82) 

Jo ㈣ 


这是他提出的已知从第 1 天到第”天太阳都升起的条件下，第《 + 1天太阳再升起的概率。 

使用科尔莫戈罗夫复杂度以及普适概率的思想，可以给出该问题的另一种解答。基于普适 
概率计算到目前为止已经观察到的序列中出现了 / Z 次1的条件下，随后一个仍然是1的概率。 
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事件“下一个符号仍然是1”的条件概率就是 rz + 1长度的序列中全部都是1的序列的概率除以如 
下两个概率的 乘积： 所有长度为 n 的序列中全部位置上都是1的片段的概率与长度为1的片段 
中出现1的概率。最简单的程序拥有最大的概率，因此，我们可以用程序“永远输出1”的概率来 
逼近“下一位是1”的概率。也就是说 

^p(riy)^ p(r) = c >0 (14-84) 


估计下一位是0的概率更困难些。由于输出1”0…的任意程序提供了对《的一种描述，它的长度 
至少应为 KU )( 对大多数的 n , K ( n )^ log 7 i + 0( loglog 72)) o 因此，若忽略掉二阶项，我们可得 


X/>(ro ： y) 々 />(ro) 々 2 


于是，观察到下一位是0的条件概率为 

p(olr) = 


P(V0) 


) 


(14-85) 


(14-86) 


p(ro) + p(i 

这与拉齊拉斯得出的结果 />(olr) = i/(n + 1) 相似。 

上述论点只是“奥克姆剃刀”的一个特殊情形，奧克姆剃刀是管理科学研究的一个普遍原则， 
即根据复杂度来权衡所有可能的解释。奥克姆居士威廉姆矜说过 ： “Nunquam ponendacst pluralilas 
sine necesitate ， \ 即解释不应该被放大到超过必要性 [516]。 作为本节的结尾，我们选择与观测数 
据相符的最简单的解释。例如，接受广义相对论比接受万有引力定律的修正因子 c / r 3 (用来解释 
水星的近日点运动)更容易。这是因为相对于“打过补丁”的牛顿定律而言，广义相对论用更少的 
假设解释了更多的东西。 


14.11 科尔莫戈罗夫复杂度与普适概率 


现在来证明科尔莫戈罗夫复杂度与普适槪率之间的一个等价关系。首先，歡复几个基本 


定义 


K ( x ) = ^^ iin _/(/>) 

Pu(x) = £ 2• 心、 

P\U (費 


(14-87) 

(14-88) 


定理 14.11.1 ( K ( x ) 和 log ^^ 等价）对所有字符串必然存在一个与所有 x 无关的 
常数 c , 使得 

2 - k ( x ) < Pw ( x ) ^ c 2 - k ( x ) (14-89) 

于是，串 o ： 的普适概率本质上被它的科尔莫戈罗夫复杂度决定了。 


注释 这意味着 K ( x 〉 和 logg ^ 作为通用复杂度的测度的 地位是同等的 。因为 

K ( x )- c / < logp ^< K ( x ) (14-90) 

回忆关于两个不同的计算机所定义的复杂度 Kn 和 Ki /， 只要有界，那么它 
们是本质上等价的两个复杂度的测度 3 定理 14.11.1 揭示了 K ( x ) 和 log ^ 1 ^ 是两个本质上等 


价的复杂度的测度。 

注意到在科尔莫戈罗夫复杂度中， K ( o :) 与 log 的关系与在信息论中， H ( X ) 与 

log ^ fe 的关系这两者之间存在显著的相似性。在信息论中，理想的香农码的长度分配 "工） = 


490 
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log ^ 达到了一个平均描述长度//(久）。而在科尔莫戈罗夫复杂度理论中，理想的描述长 

度 logg ^ 与 K ( X ) 几乎 相等。 因此 ， log 是在算法环境和概率环境中 o : 的描述复杂度的 

自然概念。 

式 (14-90) 中的上界明显可以从定义推出，但是要证明下界相当困难。由于存在无限多输出 
的程序，该结果是非常令人不好接受。从任何程序出发，添加一些不相关的指令来拉长该程序是 
一种可行的方法。该定理证明了虽然存在无限多个这样的程序，但是，普适概率本质上取决于最 
大概率 r KU > 。 PwU ) 越大，则 K ( x ) 越小。反之亦然。 

然而，用另外一种方法寻找上界会显得容易接受一些。考虑任何关于字符串的可计算的概 
率密度函数 p ( x ) 0 使用该密度函数，可以构造出一个关于信源的香农-费诺码 (5. 9节），然后通 

过相应的码字描述每一个串，其中码字的长度为 log ^ j 。 因此，对于任意可计算的分布，可以 

用不超过 log 比特的长度构造一个串的描述 ， log ^ + c 就是关于科尔莫戈罗夫复杂 

度 K (^ r ) 的一个上界。即使不是一个可计箅的概率密度函数，我们仍然珂以用如下所述的 
相当复杂的树结构程序来巧妙处理这个问题 r 

(定理 14.11.1) 的 证明： 第一个不等式是简单的。令 /)' 是关于 t 的 M 短程序。则 

PuU) = ^ … 彡 2 W( 〆) = 2~ ku) (14-91) 

这正是我们想要证明的结论。 ' 

我们可以将第二个不等式改写为 

K(x)<logp^j + c (14-92) 

在该证明的目的是找到一个描述具有卨的 P ^( z ) 的字符串: r 的短程序。一个粗浅的想法是采用 
基于(: r > 的某种赫夫曼编码，但由于不能有效地计算，从而，利用赫夫曼编码的程序 
m ] 是不可能在计算机上实施的。类似地，利用香农- 费诺码 的过程也不能实施。然而，如果我们获 
得香农-费诺编码树，那么，我们可以搜索该树中的节点重构该字符串。这是下面的树结构程序 
的基础。 

为了克服 P ^ y ( x ) 的不可计算性的困难，使用一种改迸的方法。该方法试着直接构造一棵码 
树。该方法与赫夫曼编码不同，它在最小期望码宇长度的意义下不是最优的。但该方法已经足够 

好地支持我们导出一个码使得关于 x 的每个码字的长度都不超过 log 的固定倍数。 

在讨论证明的细节之前，先概括一下我们的方法。我们想以这样一种方式构造一棵码树，即 
让概率越高的字符串对应于高度越低的节点。由于我们不能计算字符串的概率，因而没有串对 
应的树的髙度的先验知识。取而代之，我们逐一地将 x 分配到树的节点上，随着我们对 Pu ( x ) 
的估计的改进，将: r 分配到离根部越来越近的节点上。我们希望计算机能够改造这个树，并且使 
用改造后的树上对应于字符串: r 的最低节点来重构该字符串。 

现在考虑由程序和它们对应的输出所构成的集合 l (/>，* r ) l 。 我们试着将集合中的元素分配给 
该树。但是我们立即遇到一个 问题： 一个给定的字符串存在无限多个对应的程序，我们没有足够 
多的低位置的节点。然而，如我们将要证明的那样，如果将程序-蝓出的清单条理化，我们能够 

定义一个更加容易管理的清单分配到该树上。下面我们证明关于: r 的长度为 log 的程序 
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的存在性。 

树结构程 序:对 于通用计算机 Z /, 使用 14.8 节中所述的技巧模拟所有的程序。列出所有的二 
元 程序： 

A ，0, 1,00,01,10,11,000,001，010,011,… （14-93) 

然后，在第一轮中让计算机执行 A 的一个时钟周期。在下一轮中，让计算机执行 A 的两个时钟 
周期和程序0的两个时钟周期。在第三轮中，让计算机执行前三个程序中每一•个的三个时钟周 
期，如此下去。以这种方式，计算机将最终运行所有可能的程序，并且运行它们的次数越来越多。 
因此，如果一个程序能停止，它将最终被发现停止。我们使用这个方法来产生所有按顺序停止的 
程序的清单，此处，它们与伴随的输出一起停止。对于每个程序和伴随的输出形成的对 
我们来计算它是对应于 Pa ( x ) 的现行估计的一种选择。具体地讲， 


W*= log 


1 


其中 


户 W (工 *) = 


2~ np) 


(14-94) 


(14-95) 


注意，在满足 A = 的次数 A 的子序列上有户^(而 ） t PuU ) o 我们现已经构造了一棵树。添加 
三元组（九, •!：,，&) (关于所有可以停止的程序）的淸单之后，将部分三元组映射到一棵二元树的 
节点上。为了达到构造的目的，必须确保所有对应于特定 A 的 n , 是可区分的。为确保这点，我 
们从三元组清单中删除所有这样的多余的三 元组： 它们与某个三元组具有相同工和 n 。 这将确保 
该树的每一层，至多存在一个节点对应于一个给定的: r 。 

设1(//，, = 1,2,3，.“|表示新的淸单。将新淸单中的三元组分配给层 
+ 1上第一个 空笤的 节点。只要一个节点被分配，所有它的后代就不能再被分配(这保证了分 

配是无前缀的。）。 

我们举一个例子来说明这一 过程： 

(/ > i ^ i . n 1 ) = (10111, U 10 f 5), …= 5,这是 由于〜 (• r |) y “ /> ， > = 2 5 
(/>2，工2，〜）=(11，10,2), ” 2 = 2,这是由于 2 
(/ >3^3^3) = (0,1110,1), ”3=1,这是由于〜 + 

(/> 4 ，14,〜）=(1010，1111，4)，714 = 4,这是由于〜(工4)>2 /(/ ^ = 2 4 
( p 5, 工5，《5) = (101101，1110，1)，”5=1，这是由于户 w ( x 5 )>2 m +2 5 + 2 5 >2 -1 

(/ >6^6^6) = 000,1,3), ” 6 = 3,这是由于户 Z / U 6 )>2 /(p6> = 2" 3 

: (14-96) 

我们注意字符串 x = (1110) 出现在清单中的1，3和5位置，但是 ” 3 = ” 5 。而且两个位置上对应 
的概率估计值 广以 （1110) 没有显著的差异，所以 （/> 5 ,： r 5 ,” 5 ) 不能够幸免被删除。因此精选后的淸 
单变成 

(/» / i ， x / 1 ,w / i) = (10111,1110,5) 


( P 2 

( P 3 

( P \ 

(Ps 


x / 2 ^ / 2 ) = (11,10,2) 

: c»(0 ， 1110 ， l) 
i ' 4 ，， 4 ) = (1010,1111，4) 
1%，”、）= (100，1，3) 


(14-97) 
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493] 由精选后的清单到树的节点的分配如图 14-3 所示。 

在该例子中，我们能够在第以+ 1层中找出可以分配三元组的节点。接下来证明总是存在 
足够多的节点使得分配能够实施。能够执行三元组到节点的分配的充分必要条件是 Kraft 不等式 

成立。 

(/ *11 10 



接下来只考虑稍选的淸单 (14-97), 所以略去各个元索右上角的撇号。首先来观察 Kraft 不等 • 
式中的无穷求和，然后，根据输出字符串将其分组 求和： 

公 2 -<”•♦” = 刃 E 2- (n * +l> (14-98) 

于是，单独考虑内层求和如下 

4941 S = 2~ 1 2 2'"* (14-99) 


1 (2 Lk *^ (z>J + 2 Lk « p w (x)J ' 1 + 2 l ^ (x)J " 2 + …） (14 - 100) 

= 2 -| 2 ㈣ ++ + j + …） （14-101) 

= 2" l 2 lk « p ^ (x)J 2 (14-102) 

< PuU ) (14-103) 

其中式 (14-100) 成立是因为在每一层上至多存在一个节点能使得它输出一个特定 x 。 更确切地 
讲，在精选的清单中，关于特定的输出串: r 的所有〜都是不同的整数。因此， 

E 2' (n » +l) < D D 2- ( ". +I) < S 〜( x ) < 1 (14-104) 

k 2 k：^ k ^x x 

从而，我们可以构造出一棵树使得其节点标记为三元组。 


如果我们获得了如上所构造的树，那么沿着通往能够输出: T 的最低高度的节点的路径，很容 
易识别出一个给定的 J ：。 该节点记为由构造法知 / GKIog ^^ + 2)。 为了在程序中利用 

这棵树输出： r , 指定》 并且命令计算机执行前面所有程序的模拟。则计算机将构造出如上所描 
述的树，并且等待特殊的 节点》 的分配。由于计算机执行与发送器相同的构造方法，所以 节点》 
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最终将被分配。这时，计算机输出分配给该节点的^后停止。 

利用计算机重构 o ： 是一个行之有效的(有限的，机械的)程序。然而，没有行之有效的程序来 
寻找对应于： r 的最低高度的节点。我们所经证明的仅是存在一棵（无限的）树，在它的第 

log p ^ j "| + 1层上有一个节点对应: r 。 但这已达到了我们的目的。 

关于该例子， ：r = 1110 的描述是通往节点 （/) 3 ,: r 3 , 72 3 )( 即 01) 的路径，以及 x = llll 的描述 
就是路径00001。如果要描述字符串1110,那么命令计算机进行(模拟）树构造方法直到节点01 
被分配。然后，要求计算机执行对应于节点01的程序（即/> 3 )。该程序的输出就是所需要的字符 
串尤=1110。 

构造: r 的程序的长度本质上是为了描述树中对应于 x 的》低高度节点》的位置所需要的长_ 

度。所以，关于2的程序的长度就是 + 其中 

■ ■ 

因此， x 的复杂度满足 

■ ■ 

k(x H 

这样我们就证明了该定理。 

14.12 科尔莫戈罗夫充分统计量 

假设我们有一个源自 Bernoulli (幻过程的样本序列，那么由该序列的随机性会引起什么规律 
或多大的偏差？解决该问题的方法之一是求出科尔莫戈罗夫复杂度 K ( X ”| 71), 我们已知它大约 
为 nH 0 ( d )^\ ogn ^ c o 由于，对于0^1/2,这个值远小于”，因此，我们断定： r ” 具有一定结构而 

不是随机服从 Bernoulli (+) 的。但这个结构是什么？要探索该结构的第一反应就是系统地检杏 

关于 x ” 的最短程序 />• 。但/> •的《短描述大约与/> •本身一样长；否则，我们可以进一步压缩 * r ” 

的描述，这与/>•的最小性相矛盾。所以，这种企图是无果而终的。 

但我们在对“用•描述 X ””的方式的检査过程中受到了启示，得到了一种好的手段。程序 
“The sequence has k 1 ’ s ; of such sequences , it is the i th ” 是关于 Bernoulli 0) 序列一阶近似为最优 
的。我们注意该程序是一个两步骤描述法，该序列的所有结构都在第一步骤中刻画。而且，/是 
最复杂的，被放在第一步骤中。第一步骤即々的描述，需要 log (” + l ) 比特长度并且定义集合 S 

= \ xe \0 A \ n : Zx i = k \ o 第二步骤虽然需要 loglSl = log ^ 卜⑼比特的长度， 

但不需要揭示 X ”的任何特别之处。 

对于一般的序列，通过寻找一个包含 X ”的简单集合 S 来模仿这个过程。接下来用 log : Sift 
特给出 S 中的/的一个描述。首先给出包含可以用不超过々比特描述的 x ” 的最小集合的定义。 

定义 二元串 : rG 10,11”的科 尔莫戈罗夫结构函数 K „( x n U ) 定义为 

K k ( x n \ n )= rmn ^ logl Si (14-107) 

U\p.m)mS 

集合 S 是可以用不超过々比特进行描述且包含 〆 的最小集合。我们用记号 W ( P ， n ) = S 表 
示在通用计算机以上运行程序/>，输人数据《后将输出集合 s 的示性函数。 

定义对于一个给定的小常数^ ，令 〆 是满足 


(14-105) 

(14-106) 
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K k ( x n \ n ) + k <： K ( x n \ n ) + c (14-108) 

的最小的 A 。 设是对应的集合， pu 是输出5〃 的示性函数的程序。则我们称是关于 
x ” 的一个 科尔莫戈罗夫最小充分统计量 3 

考虑描述集合 S •的程序且满足 

K *( x "| n ) + ^ = K ( x "| n ) (14-109) 

从 x ” 关于条件 S •的条件复杂度最大的意义角度讲，所有的程序 />• 都是“充分统计 M ”。 而最小 
充分统计量是最短的“充分统计量”。 

上面定义中的等式中忽略了一个依赖于计算机以的大常数。此时 K 对应于最小的 々，： r n 的 
两步骤描述效果与: r ” 的最佳的单步段描述-样好。第二步骤仅提供了 x ” 在集合内的 标记； 
如果在给定的集合中/是条件最复杂的，第二步骤只需要心（ 〆 丨 《) 比特的长度。因此， 
集合刻画了 /内部所有的结构。在内关于: r ” 的其余的描述本质上就是对字符串内部 
随 机性的描述。因此， S ••或/>••称作关 T〆 的科尔莫戈罗夫充分统计量 。 

用这种方式定义的统计 S 类似于数理统计中定义的充分统计量。在数理统计中，统计最了 
称作关于一个参数0是充分的，是指在该充分统计 fi 给定的情况下，样本的分布与参数独立，即 

0— T ( X)-^X (14-110) 

按顺序构成一个马尔可夫链。而对于科尔莫戈罗夫充分统计《,指的是程序关于串/的 
“结构”是充分 的；： r " 的描述的剩余部分本质上独立于 x ” 的“结构”。特别是，在给定的条件 
下， x ” 是最复杂的。 

结构函数的一个典型图像如图 14-4 所示。当々=0时，可以被描述的惟一集合是整个 
_ 10,11", 所以对应的集合大小的对数值是随猗我们增加々，集合的大小迅速下降直到 

ife + K *( x "| n )^ K ( x "| W ) (14-111) 

随后，走每增加1比特，集合减少一半，并且沿猗斜率为-1的直线下降直到走 = K ( x ” U )。 对 
于可以被描述的且包含分的最小集合是单点集 U ”|, 因此 K * U ” U )=0。 

我们接下来举一些例子来说明这个概念。 

1. Bernoulli (幻 序列。 考虑一个长度为 n 的样本序列，假设它服从待定参数0的伯努利序 
列。 如同例 14. 2所讨论的(图 14-5), 可以用 ) + | log ” 比特来描述该序列（用两 

步骤法，第-步用 log ” 比特来描述 I 然后用 log ^ ) 比特来描述每一个具有々个1的序 




阁 14-4 科尔芡戈罗夫充分统计量 


图 14-5 关于伯努利序列的科尔莫戈罗夫充分统计 fi 
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列）。但是，我们可以用更简短的一步描述 3 代之对 A 迸行精确描述，我们将々的值域划 


分为若干个匣子，在精度为心的意义下，用长度告 logn 比特来描述“此时， [498 
我们描述所有那些型与 々的匣 子相同的真实序列。由斯特林 ( Stirling ) 公式可推出，包含 

其中个1的序列集合的大小为 nHO + 0 ( n )。 虽然总描述长 
度仍为 nH ( k )^ j \ ogn ^ o ( n ) t 但是科尔莫戈罗夫充分统计量的描述长度此时为 f ~ 

丄 logWo 

n 

2. 来自一个马尔可夫链的样本。 与上一个例子的脉络完全相同，考虑 一个服 从一阶二元马 
尔可夫链的样本。同样，在这种情况下， p ••将对应于描述该序列的马尔可夫型(序列中 
00,01，10和11出现的 次数） ，它承载着序列中所有的结构信息。该描述的剩下部分将 
是给出该序列在由所有的具有相同马尔可夫型的序列构成的集合中的标记。从而，在这 


种情况下， 〆 ^2(ylog;i) = logn 这对应于在适当精度下描述条件联合型的两个元素(该 

条件联合型的其他元素可以由这两个来决定）。 

3. 蒙娜 丽莎。 考虑在白色背录上的一个灰色圆构成的图像。这个圆 
的灰度不是均匀的，而是服从于 参致为 0的一个伯努利分布。如 
图 14-6 所示。对于该情形， 敁佳 的两步骤描述 法是： 首先描述圆 
的尺寸和位 K 以及它的平均灰度水平，然后描述在所有具有相同 
灰度水平的圆的集合中该圆的标记。假设一輻 n 像索的图像（即 
'Ai ) 的有 n + 1个可能灰度等级，以及(心） 3 可识别的圆。图 14-6 蒙娜丽莎 

因而，此时有 



499] 


14.13 最短描述长度准则 

当我们需要描述来自某个未知分布的数据时，奥克姆剃刀的一个自然推广就提到了议亊日 
程上了。令 u 2 , …，尤是独立同分布且服从槪率密度/ > U ) 的。假设不知道 />( x ) 的具体形 
式，只知其 〆 : r )€ P , 即在某个概率密度函数类之中。给定数据，我们可以据此估计 P 中最适合 
于该数据的概率密度函数。对于简单类 P (比如其仅含有限多个概率密度函数），那么该问题变成 
一个平凡的问题，用 最大似 然程序（即，求/使得，…， X „) 最大）就足够了。但是，如果 
P 中元素足够多，就会有过分拟合数据的问题。例如，如果，…，为连续型随机变童，且 

P 是一切概率分布之集，那么，已知：^,义 2 ,最大似然估计子则是一个在每个质点 都取士 

重 S 的分布。显然，该估计子与实际观测数据太紧凑以至于没有捕捉到潜在的分布的结构的影 

子。 

为了获得该问題的近似解，许许多多的方法都被尝试过。最简单的情形就是假定数据服从 
某个含参变量的分布（比如正态分 布）， 而基于观测数据对分布中的参数进行估计。为了检验该 
方法的有效性，首先得检验这些数据是否“有点”正态分布的样如果数据通过检测，我们才能 
用此方法描述该数据。更一般的方法是采用最大似然估计并且将其光滑化得到一个光滑的密度 ® 
函数。当拥有足够的数据量和适当的光滑条件，给出原始密度函数的一个好的估计是可行的。 

这种处理过程称为 核密度估计。 
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但是，科尔莫戈罗夫复杂度理论(或者科尔莫戈罗夫充分统 计最） 提示我们一个另类的处理 
程序： 搜索使得下面等式最小化： 


L p ( X 1 , X 2 ,-,XJ = K ( p ) + log p ( Xl9 X 2j - 9 X , 


(14-112) 


• - •膠 

这是对于数据的两步骤描述的长度。此处，我们首先描述分布然后在给定该分布的条件下构 
造香农码并用 log 以"/〆",幻 比特来描述该数据。该程序就是所谓最小描述长度 (Ml) L ) 准 
则的特殊情形。 (MDL)*wmi!tnT： 当数据与选择模式给定之后，选择一个翻使得对于该模 
型的描述长度加上对数据的描述长度之和尽可能短。 _ 


要点 


定义 一 个串； r 的科尔莫戈罗夫复杂度 K ( X ) 是 

KU) = 上 J ⑷ 


科尔莫戈罗夫 ft 杂度的通用性存在一个通用计算使得对任意其他的计算机以及 

任意的字符串 I ，均有 

Kw ( x )< K > i ( x)^m (14-115) 

其中常数^^4不依赖于 I 。如果 W 和4都是通用的 • 则对所有的 hlKw (: r)-K/x)l<c。 

科尔莫戈罗夫复杂度的上界 ， 

K( xl /(x)X/(x) + c (14-116) 

K(x)<K( xU (x)) + 2log/(x) + c (14-117) 

科尔莫戈罗夫复杂度和》如果 M,X 2 , …是 U.d. 的且熵 H 为整 数值酿 变置，那么存 

在一个常数 c, 使得对所有的”， 

H<~EK(X"U)<H+I^|^ ，? + -J (14-118 〉 

科尔莫戈罗夫 ft 杂度的下界&杂度 KU ) 〈友的 字符串：总数不超过 2 *。如果 x " 
X 2 ；- ^ X n 是服从 BemoulU(D 的一个随机过程， 


(14-113) 

(14-114) 


PrCKCX^z 

定义称序列：^，〜…，心是不可压靖的，如果 KU 卜 *r 2 ，…，1 

不可压缩序列的强大数定律 

K( Ji ， i 2 , …， J”) 一 1=> 丄公 


(14-119) 




定义一个串: T 的普适概率为 

PuU ) = S 2 - l{p) = PdU ( p ) = 

p w u) 普适性对于每台计算机乂，及任何串 

Pu(^)>ca - 

其中常数 Cj 仅依赖于 W 和43 


(14-120) 


(14-121) 
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定义 （1= ^ 2~ ap) = Pr ( W ( p ) 停止）是计算机停止的概率，其中，输人到计算机的 

>:r : p ： U(p)»± 

P 是一个服从 Bernoulli 过程的二元字符串。 

0的性质 

1. n 是不可计算的。 

2. n 是“哲学家的一块石头”。 

3. n 是算法随机的（不可压缩的>。 

KU ) 与 log ^ j^y 的等 价关系存在一个独立于: r 的常数 c , 使得对所有的字符串工， 

log - K(jt) 卜 c (14-123) 

因此，串 a : 的通用概率基本上由它的科尔莫戈罗夫复杂度所决定。 

定义一个二元串; r ” eiO , l | •的科尔莫戈罗夫结构函数 K 4 (? ln ) 定义为 

K k { x H \ n )= min loglS | (14-124) 

定义令 iT 是满足 

K 4 -(^ U ) + ife *= K ( x -| n ) (14-125) 

的最小的 A 。 S ••是对应的集合 • /»••是输出的示性函数的程序。则 p ••是关于 x 的科尔 
莫戈罗夫最小充分統计量。 


习题 

14.1 两个序列的科尔莫戈罗夫复杂度。 设证明 KCr , yXKU ) + K ( y)^Co 
14.2 和的复杂度 

( a ) 证明 K ( wXlogw +21 oglogn + Co 

( b ) 证明 K( Wl + 7 i 2 )< K ( n I ) + K( W2 ) + c 0 

(c) 给出力和 〃 2 是复杂的，但它们的和是相对简单的一个例子。 

14.3 图像 3 考虑由0和丨构成的点阵 a ：。 于是 x 具有 n 2 比特。 


□ 


试求科尔莫戈罗夫复杂度 K ( xU )( 在一阶近似意义下），如果 

( a ) x 是一条水平线。 _ 

(b) X是一个正方形。 

(c) x 为两条直线的并，其中一条垂直，另一条水平。 

14.4 计算机会使墒减少吗？ 将一个随机程序 P 输入一台通用计算机，那么对应的输出序列的 

熵是多少？具体地，设 X = W(P ), 其中 P 是 Bemoulli(^^ 序列。这里的二元序列久或者 
未定义，或者在 I0，ir 之中。设 H(X) 为X的香农熵。讨论 H(X) = oo。 于是，尽管计 
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算机可将无意义转变成有意义，但输出序列的熵仍然为无穷大。 

14.5 在一 台计算 机旁的猴子。假定 一个随机程序被敲人一台计算机。粗略估计该计算机输出 
以下序列的 概率： 

( a ) 以0” 为前缀的任意序列。 

( b ) 以巧巧…〜为前缀的任意序列，其中 7 T , 表示 7 T 的二进制展开中的第£位。 

( c ) 以 0”1 为前缀的任意序列。 

( d ) 以叫〜为前缀的任意序列 0 

( e ) 四色定理的一个证明。 

14.6 科尔莫戈罗夫复杂度与三元程序。 假定一个通用计算机 W 的输入程序是 KM ，2 r 中的序 
列（三元输入），且 W 的输出也是三元的。令幻文|/(0：))=仏$^/(/>)。证明 

( a ) K ( x"|nXn + c 0 _ 

( b ) | x "€|0, l | # : K ( x - U )< ifel <3* o 其中，林 I * i 是集合的元索个数。 

14.7 大数定律。 使用如同习题 14.6 中的三元输入和输出方案，简要讨论如果一个序列工是算 
法随机的，即如果 K ( x |/( o ：)&/( a ：)), 则在 J ： 中的0, 1和2的比例均接近于1乃。不妨考 

_ 虑使用斯特林近似公式”！ — 

14.8 图像的复 杂度。考虑(一个” x ” M 格的)两个二元子集 A 和 fl 。 例如 • 

根据 K ( Aln ) 和 K ( BU ), 求下列情形中给出的复杂度的上界和下界： 

( a ) K ( A e \ n ) 

( b ) K ( A \ jB \ n ) 

( c ) K ( Af ] B \ n ) 

14.9 随机程序。 假定一个随机程序(其中的字符是独立同分布服从字符集上的均匀 分布） 输入 
到最新的计算机中如果出乎意料地瑜出1/乃的二进制展开中的前 n 位，那么粗略佔卟卜 
—个输出位与1/乃的展开式中的对应位相一致的槪率是多少？ 

14.10 人面与花瓶移动幻觉 


I 


( a ) 现有网格上的一个模式，它关于通过网格中心的垂直轴镜像对称并且由水平 
线段构成。试估计这个模式的复杂度的一个上界。 

( b ) 如果图像有一个网格不同于上面描述的模式，则它的复杂度 K 会如何变化？ 
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14.11 


14.12 


14.13 


14.14 


科尔莫戈罗夫复杂度。 假设《为给定的充分大的整数。令所有的长方形与框架的底边平 

行。 

U ) 在 n x „网格子上两个长方形之并的(最大)科尔莫戈罗夫复杂度是多少？ 


( b .) 两个长方形仅在某个顶点处相交时的科尔莫戈罗夫复杂度是多少? 


( c ) 如果两个具有相同的未知形状时，科尔莫戈罗夫复杂度是多少？ 

( d ) 如果两个具有相同的未知面积时，科尔莫戈罗夫复杂度是多少？ 

( e ) 两个长方形的并的最小科尔莫戈罗夫复杂度是多少？即 M 简单的并是多少？ 

(0 在一个《 X „格子上所有图形（不一定必须是长方形）的 （ ft 大)科尔莫戈罗夫复杂度 
是多少？ 

加密文本。 假设英语文本 《 r ” 通过一个转换加密器也就是 ( A - Z , 包括空格 )27 个宇母的宇 
母表上 1-1 的再分配)加密成为 y 1 。 假设文本: r ” 的科尔莫戈罗夫复杂 度是/ <(/) = $。 

(这在英语文本中是大致正确的。用编程语言程来说，假如现在用一个27字符的语言, 
取代两个字符语言，就等于使用27进制替换2进制。于是，最短程序的长度，具体地讲 
就是一个长度 n 的英语文本的最短程序的长度，接近于 f 

( a ) 加密地图的科尔莫戈罗夫复杂度是多少？ 

( b ) 估计加密文本父的科尔莫戈 罗夫复 杂度。 

( c ) 如果你期望能对 y 进行译码， n 必须多大？ 

科尔莫戈罗夫复杂度。 考虑整数 n 的科尔莫戈罗夫复杂度 KU )。 如果对于某个特定的 
整数〜 其科尔莫戈罗夫复杂度 K ( q ) 较低，那么，关于整数〜々的科尔莫戈罗夫复 
杂度 K ( 〜+幻与 KUO 有多大差异？ 

大 數的复杂度。 A ( n ) 是这样一些正整数: r 的集合，存在终止程序 P 输出 :r 的长度不超 
过 n 比特。 BU ) 是 AU ) 的补集（即 BU ) 是这样的正整数 x 之集，即任何一个终止程序 
在 n 比特之前都得不到 * r )。 令 MU ) 是 AU ) 中的最大整数，而 SU ) 是 B ( n ) 中的 最 小 
整数。那么回答下列 问题： 

( a ) 科尔莫戈罗夫复杂度 K ( MU ))( 大约)是多少？ 

( b ) K ( S ( n ))( 大约)是多少？ 
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( c ) M ( ti ) 和 SU )， 哪一个大？ 

( d ) 给出 AfU ) 的合理下界和 SU ) 的合理上界。 


历史回顾 


科尔莫戈罗夫复杂度的原创思想是由 Kolmog 0 rov [321，322]， Sol _ noff [504] 以及 Chaitin 
[89] 几乎同时独立地提出来的。科尔莫戈罗夫的学生们进一步发展了这些思想，如 MartirvL 6 f 
[374] 给出算法随机序列槪念和关于随机性的算法检验的定义，另外 Levin 与 Zvonki n [353] 探索 
了普适概率的思想以及它与复杂度之间的关系。0^1出在他的一系列论文[90]-[92]中推广了 
算法复杂度与数学证明之间的联系。 C . P . 5^10011*在[466]-[468]中研究了随机性的普适性概 
念并且将其用在博弈中。 

科尔莫戈罗夫结构函数的概念是由科尔莫戈罗夫本人在1973年的塔林 ( Tallin ) 会议上的演 
讲中定义的，但是相关的结果并未发表。 V ’ yugin 在 [549] 中将其完善，并且证明了在 U ) 
=^-々，纟</<(0：”|7 1 )的意义下，存在一些相当奇异的序列 x ", 要揭示他们的结构进展极其得缓 
慢。 Zurek [606] - [608] 通过讨论科尔莫戈罗夫复杂度的物理结果，提出了关于麦克斯韦妖 
网 ( Maxwdl’s demon ) 和热力学第二定律的基础问题。 

Kissanen 的最小描述长度 （ MDL ) 原理在本质上非常接近于科尔莫戈罗夫充分统计埴。 
Rissanen 在[445, 446] 的研究中发现，低复杂度的模型可以产生具有高度似然性的数据 。 Barron 

与 Cbver 在 [32] 中讨论了使得 K (/) + 达到最小的密度函数也是密度函数的一致估计。 

有关度世复杂度的不同方式的非技术性介绍可见 Pagels [412] 所著的一本思维启发式的书。 
此方面的另外的参考书也可以参看 Cover 等人的论文 [412], 从中可以找到科尔莫戈罗夫对于信 
息论和算法复杂度的贡献。对于该领域较全面的书，包括对算法与自动机分析理论的应用，当 W 
l 08\ Li 与 Viianyi 的专著[354]。涵盖面更大的著作应该是 Chaitin [86,93]。 



第 15 章网络信息论 


能够同时容纳众多发送器与接收器的系统必然囊括了通信问题中的许多新 要素： 干扰、协作与反 
馈。它们都是网络信息论中的重要议题。对于一般网络通信问题，我们容易将其抽 象为： 在给定若干 
发送器、若干接收器以及描述网络中的相互干涉与噪声干扰效应的信道转移矩阵的条件下，确定该信 
道是否能够传输这些信源信号。该问题涉及到分布式信源编码(数据压缩)以及分布式通信(找出网络 
的容 M 区域)。该问题至今还未彻底解决，因此，本章中我们只考虑各种各样的特殊情况。 

计算机网络系统、卫星网络系统与电话网络系统都是大型通信网络系统的例子。即使在单 
个计算机内部，也有许多的部件之间需要互相交流。一套完整的网络信息理论必将对通信与计 
算机网络的设计产生广泛的影响。 

假设有 m 个站点要通过公用的信道与某个公用的卫星交流信息。如图 15-1 所示。这称为 
多接入信道 ( multiple-access channel )。 为了将信息传输到接收器，各发送器之间应当如何协作？ 

同时可达的通信码率是多少？当发送器间存在干扰时，对总的通信码率该做什么样的限制？这 
是目前我们了解得最彻底的多用户信道，并且上述问題都有满意的解决方案。 

与此相对比，我们来考虑-个逆向 问题： 某电视台发送信息到 m 台电视机，如图 15-2 所示。 

发送器应当将信总如何编码才能使得间-个信号适用于不同的电视机？到底需要多大的码率才能 网 
将信息传送到不同电视机？对于这种信道，仅在一些特定的情形下上述问题才有解决方案。 




还有其他一些信道，如中继信道(此处假定仅有一个信源和一个发送目的地，但是有一个或 
多个同时行使接收与发送功能的中继站，实现信源与目 ^ / 

的地间的通信）、干扰信道(两对发送器与接收器之间串 (V *^f • 

线)或双程信道（两对发送器与接收器互相传输信息）。 


关于这些信道的可达通信码率问题以及合适的编码策 
略问题，我们仅略知一二。 

所有这些信道均可以考虑为由 m 个互通信息的节 
点所组成的通信网络模型的特殊情形，如图 15-3 所示。 
在每个瞬时时刻，第；个节点发送某字符取决于其自 



图 15-3 通信网络 
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身需要传输的信息以及过去从该节点接收到的 字符。 同时发送字符 ( A ， x 2 , …， xj 会使接收器收到 
服从条件概率分布 〆 夕⑴， y 2> , …， y 一 u ⑴， z ⑵，…，/一)的随机字符串 （ a ， y 2 , …，圪),其中 
/>( •丨 •) 表示存在于网络中的噪声与干扰的效应。如果 M - IO 取值仅为0或1,那么 m 络就变成确定 
性的。 

与网络中的一些节点相伴随的是随机数据信源，网络将它们从一些节点传输到另外一些节 
点。若信源是独立的，那么节点发送出的消息也是独立的。然而，为了使理论完全具有普遍意 
义，必须允许信源是相关的。试问，如何利用相关性的特点来精简待传输信息的数最？当已知信 
源的概率分布与给定信道转移函数后，在允许适当的失真下，是否可以通过该信道发送这些信源 
信号并且在目的地将这些信源信号恢复出来？ 

我们接下来考虑网络通信的一系列特殊情形，考虑当信道尤噪声且无干扰时的信源编码问 
题。此时，问题简化为找出与每个信源相适应的一组码率，在传输目的地可以以低误差概率(或 
适当的失真)将所需信源信号译码。分布式信源编码的最简单情形就是 Slepian-Wolf 信源编码。 
此时有两个信源，必须分开编码但要在公共的节点上同时译码。继而我们推广该理论，考虑两信 
源中只有一个需要在目的地恢复的情况。 

关于网络的信息流理论在电路理论和管道中水流这样的领域内取得了令人满意的结果。例 
如，对于如图154所示的单信源与单接收器管道网 
络，从 A 到的最大信息流可以由 FoniFulkeracn 定 
理很容易地算出。假设各边的容 M 为图中所示的 C ,, 

_那么显然，穿过每个割集的掖大信息流不可能大于该 
割集中所有割边的容 tt 的总和。因此，穿过所有割集 
的最大流中的最小值就是网络容 ® 的上界。 Foitl - 
Fulkeraon 定理 [214] 证明了该容 ft 是马达的。 

网络中的信息流理论并不真像水管中的水流那 
样简单。虽然可以证明穿过割集的信息流的码率有 
上界，但该上界在通常情形下是不可达的。只有中继信道以及串联信道等特殊网络才能满足这 
种简单的最大流最小割的解释。在寻求一般理论的过程中，我们将面临另外一个敏感的问题，那 
就是没有信源信道分离定理。关于该问题， 15.10 节会作简短的介绍。将分布式信源编码与网络 
信道编码结合在一起形成一套完整理论依然是我们追求的长远目标。 

在下一节中，我们列举网络信息论中的一些经典高斯信道。强烈的物理背景注定了高斯信 
道具有具体且容易解释的答案。稍后我们证明关于联合典铟性的一些基本结论，它们将用来证 
明多用户信息论的诸多定理。然后，详细考虑各种各样的具体问题——多接人信道、相关信源的 
编码 ( Slepian-Wolf 数据压缩）、广播信道、中继信道、具有边信息的随机变 tt 的编码以及具有边信 
息的率失真等问题。在结束对网络中信息流的一般理论的介绍之际，我们还要多说几句。在该 
领域中，还有许多未解决的问题，因此，根本没有（至少还没找到)一套完整的信息网络理论。即 
使将来能够发现这样的理论 • 也可能会因为其太复杂而不易执行。当然，这样的理论还是可以告 
_诉通信设计者如何向最优看齐，也可以启发设计者获得一些提高通信速率的手段。 

15.1 离斯多用户信道 

高斯多用户信道揭示了网络信息论的一些重要特性。我们在第9章中获得的关于髙斯信道 
的直观印象正好为本节莫定了基础。在此，我们仅给出如何建立高斯多接人信道、广播信道、中 
继信道以及双程信道的容量区域的关键思想而不加证明。对应于离散无记忆信道的所有编码定 
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理，我们可以平行地得到相应的网络编码定理，它们的证明将在本章的后面几节中给出。 

最基本的信道是具有输入功率为 P , 噪声 方差为 N 的时间离散可加髙斯白噪声信道，其数 
学模型为 

V , = X , + Z ,, : = 1,2,… (15-1) 

其中，为 i . i . cL 的髙斯随机变 M 序列，其均值为0,方差为 N 。 信号 X =( A , X 2 ，…， X„)m 
足功率约束条件 

(15-2) 

71 i-i 

香农容暈 C 是互信息/( X ; y ) 在所有满足 £ X 2 < 尸的随机变 童序列 X 集合上的 M 大值，按下式 
(见第9章)给出 

C = jlog(l + 务)比特 /传输 (15-3) 

本章，我们仅讨论时间离散无记忆 信道； 所得结果可以推广到时间连续的高斯信道 3 
15.1.1 单用户离斯倌道 

首先复习一下第9章中的单用户高斯信道。这里 y=X + Z , 选取码率尺 < flog(l + 

P / N ) 0 选定功率为 P 的优秀(2〜， n ) 码簿。在集合 11,-, 2#1 中选取下标 it ;。 传输上述码簿 
中的第 u ; 个码字 X ( u 0。 接收器观测到 Y = X ( u ;> + Z 之后，找出与 Y 最接近的码字的下标 i 。 
当 n 足够大时，误差概率可任意小。从联合典型的定义可肴出，该最小距离译码方案 
本质上等同于找出码簿中与接收到的向进 Y 构成联合典型的码字。 

15.1.2 m 个用户的离斯多接入倌道 

考虑；71个发送器，每个发送器的功率均为 P , 设 

Y = £ x , + Z (15-4) 

I 囂 1 

C ( n ) = 2^( 1 + n ) (15 _ 5) 

表示信噪比为 P / N 的单用户高斯信道 容像。 高斯信道的可达码率区域可有下述方程组决定的简 
单 形式： 

尺,< c (务） （15-6〉 

R ^ R ; < C (^) 05-7) 

R ,^ R k < c (^) (15-8) 

; (15-9) 

客尺 ,< C (穿） （15-10) 

注意到当所有的码率都相同时，所有别的不等式可归结为最后一个不等式。 

此时，我们需要 m 个码簿，其中第£个码簿具有2#个功率为 P 的码字。传输方式很简单， 
每个独立的发送器只要从其自身的码簿中任意选取一个码字，然后所有用户同时传输这些 向量。 
接收器观测到的是这些码字与高斯噪声 Z 的叠加。 

最优的译码方法就是在 m 个码簿中各自找出一个码字使得这些向量之和在欧几里得距离下 



与 Y 最近。若 ( i? lf R 2 , …， R m ) 包含在上述容量区域内，那么当 rz 趋向于无穷时，误差概率趋 
1E 向于0。 

注释所有用户的码率之和 C ( mP / N ) 将随 m 趋于无穷，这是该问题导出的一个令人回味 
的事实。由此可以想到，对于有 m 个功率为 P 的嘉宾的鸡尾酒宴会(外界噪声 N 存在），当崧宾 
人数趋向于无穷时，有心者可获得的 信息童 也是无界的。当然，对于地面与卫星的通信，也有类 
似的结论。显然，随着发送用户数目 m—， 相互干扰的增加并未对接收信息造成限制。 

另一个有趣的事实是，最优传输方案并不涉及到时分多路复用。事实上，每个发送器在任何 
时间都占用着所有的频带。 

15.1.3 离斯广播傕道 

这里，我们假设有功率为 P 的发送器与两个相隔遥远的接收器，其中一个接收器的高斯噪 
声功率，另一个的高斯噪声功率为 N 2 。 不失一般性，假设于是，接收器比接 
收器 y 2 受噪声干扰小。信道模型为 K A 与 y 2 = X + z 2 ，其中 A 与 z 2 为任意两个相关 
的高斯随机变量，方差分别为 Ni 与 N 2 。 发送器希望以码率与尺 2 分别传送独立的消息给接 
收器 A 与 y 2 。 

幸运的是，所有髙斯广播信道均厲于 15.6.2 节要讲到的退化广播信道类。特别地，我们发 
现髙斯广播信道 的容撤 区域为 

&< C ( 雳） (15-11) 

^ <c (^lvf) (15 - 12) 

其中《可任意选取 (0< d < l )， 是为了实现发送器所希望的以牺牲码率尺！来换取尺 2 的目的。 

为了对消息进行编码，发送器需要产生两个码簿，一个功率为 OP 且码率为1^,另一个功率 
为 化且 码率为 i ? 2 , 其中尺：与尺 2 包含在上述的容嫩区域中。此时，为了分别将下标^,€11, 
2,…，2,与 II , 2,…，2哟 I 传榆给 L 与 y 2 , 发送器分别从第一个与笫二个码簿中取出 
H 5] 码字 XUD 与 X ( u ； 2 ) 并将它们叠加。然后，将黉加的字符串通过该信道传输出去。 

接下来，接收器要对消息译码。首先考虑较差的接收器 v 2 。 它仅需要在第二个码簿中査找 
与接收到的向 m y 2 最接近的码宇。由于 l 的消息对于 y 2 来说是噪声，因此，接收器 h 的有 
效信号相对于噪声的信噪比为 oP /( oP + N 2 )o (这是可以证明的。） 

较好的接收器^会先译出丫 2 所对应的码字父 2 ,它之所以可以这样做是因为它的噪 
较低。它从 I 中减去码字《 2 。然后，在第一个码簿中寻求与最接近的码字。这样处理 
可以使得结果的误差概率小到符合事先要求。 

退化广播信道的最优编码的意外的收获是 •. 较好的接收器 A 总是除了获取传输给自己的信 
息之外，还顺便获得了传输给 y 2 的信息。 

15.1.4 离斯中继倌道 

对于中继信道，它有发送器 X 与最终的目标接收器 Y 。 为了讲解方便，假设只有一个中继 
站。高斯中继信道(如图 15-31 所示)可表达为 

Yi = X + (15-13) 

V = X + Z , + X , + Z 2 05-14) 

其中， A 与厶为两个独立的 0 均值高斯随机变貴，其方差分别为与 N 2 。 中继信道的容许编 
码是如下的因果序列 


Xii = /!(Yii ， Yi2 ， … ， Y“-i) 


(15-15) 
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如果原发送器 X 的功率为而中继发送器的功率为则中继信道的容量为 

C=m^ | min|c( P+ gt i + + 2 j ^),c(f )| (15-16) 

其中5 = 注意，如果 


Pi 

N 2 




(15-17) 


可以看出 CzCXP / NO , 当 a = l 时达到该容 it 。 在此情形下，经过中继传输，该信道似乎是无 
噪声的，并且由 X 到中继站的容 量0(尸//^) 是可达的。因此，无中继时的容董 C ( P /( N , + 
N 2 )) 也随着中继站的出现而增加到 aP / N ,)。 对于充分大的 N 2 , 当 JVN 2 >/ VNi 时，我们可 


以看到，码率从€(户/(% + 乂))~0增加到了 aP / N^o 

考虑分组传输。在第一组传输中，设心 < C ( oP /； V 山 此时需要两个码簿，第一个码簿中有 
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2$个功率为 oP 的码字，第二个码簿中有2%个功率为的码字。为了创造出中继站之间的协 
作机会，需要从这两个码簿中连续地调用码字。首先从第一个码簿中调出一个码字来发送。由 
于尺 / aoP / N 山 中继站可以知道该码字的下标，但是目标接收器却无法确定该下标，因为它 
对于收到的每个向罱信号进行译码会获得一个含有 2 W c < aP /</ V N : 个可能码字的淸单。若要 
准确判定该下标，还需要一系列的计算，而这些计算又牵涉得到一个与淸单编码有关的结果。 

在下一组传输中，发送器与中继站希望通过协作解决接收器的不确定性，即接收器因为对接 
收到的字符串对应着淸单中的多种可能而不能确定。遗憾的是，发送器与中继发送器并不知道 
该淸单是什么，因为他们根本不知道接收器收到的信号 Y 。 为此，它们随机地将第一个码簿划分 
为2呎个单元使得每个单元中有相同数目的码字。该划分对于中继发送器，接收器与发送器三方 
都公开。发送器与中继发送器找出该码字在第一个码簿的划分中所处的单元，同时两者进行协 
作，将第二码簿中对应于单元编号的那个码字发送出去，即 X 与；^发送了同一个指示的码字。 

当然，中继发送器必须调制该码字使其满足功率限制为同时发送了它们的码字。这时需要 
注意的一个重点是，由于中继发送器与原发送器传输的协作信息是同步发送的，因此，接收器 Y 
看到的是一个功率为 ( v @ + v ^ i ) 2 的番加信号。 

然而，原发送器在第二组的工作并没有结束，它还要再从第一码簿中选取一新的码字，将其 
“照章”与从第二个码簿中取出的协作码字叠加，并将该叠加后的序列经信道发送出去。 

在第二组传输中，最终接收器 y 的接收工作 包括： 首先通过找出第二码簿最接近的码宇来 
发现协助码字的 下标; 其次，从接收到的序列剔除这个最接近的码字，并且计算出个下标的 
淸单，使其对应于第一码簿中所有这样的码字，它们可能已被送到第二组。 

接下来就该是最终目标接收器来完成关于第一组传输中发送出的第一个码簿中的码字的计 
算工作。当它取得所有可能是第一组传输发送出的码字清单之后，检查澝单与划分的特定单元 
(已经从第二组传输协助的中继传输中知道了该单元的编号）相交的情况。假定已经选取了码率 
与功率，使得交集中以高槪率仅含1个码字，那么，这个惟一的码字就作为在获得第一组发送出 fUz 
的信息条件下 y 的估计。 

现在进人一种稳定的状态。在每一组新的传输中，发送器与中继站可以协作解决前一次留 
下的淸单的不确定性。另外，发送器在传输第二个码簿中码字的同时将来自第一码簿中的新信 
息叠加上去，然后传输该叠加信息。接收器总是落后一组，但当发送的传输组数足够多时，这并 
不影响总体接收速率。 

15.1.5 离斯干扰倍道 

干扰信道有两个发送器与两个接收器。发送器1希望对接收器1传递信息，并不关心接收器2 
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会收到或者泄密。发送器2与接收器2也同样如此。每个信道之间相互干扰。该信道如图 15-5 所 
示。它并非真正的广播信道，因为对每个发送器，仅有--个目标接 收器； 也不是多接入信道，因为 
每个接收器仅对相应的发送器发送的信息感兴趣。对于对称干扰的情形，我们有 

V , = X , + aX 2 + Z , (15-18) 

V 2 = X 2 + aX x + Z 2 (15-19) 

其中 A , Z 2 是两个独立的服从 AT (0, N ) 的随机变量。该信道即使在高斯情形下也没有一般解。但是 
很明显，无论是在高干扰还是在无干扰情形下，信道的容量 
区域都是相同的。 

要获得该结论，需要产生两个功率为 P 且码率为 
C ( P / iV ) 的码簿。每个发送器从其码簿中选出一个码字并 
将其发送。假如干扰 a 满足 CU 2 /V (尸 + N ))> C ( P / 

N ), 那么第一个发送器完全清楚第二个发送器所用的下 
标，因为它可以通过搜索与它收到的信号》接近的码字这 
种寻常的方法来找到该下标。当它找到该信号之后，可以 ^ 

从接收到的波形中减去该信号。于是，它与自己的发送器 ^ 15 ' 5 

之间形成了一个净化了的信道。然后，它从发送器使用的码簿中搜索出最接近的码字，并宜布该 

码字就是发送器1所发送的码字。 

15.1.6 离斯双程信道 

双程信道与干扰信道非常类似，但具有以下附加规定：发送器1与接收器2相连，发送器2与 
接收器1相连，如图 15-6 所示。因此，发送器1可由接收器2以 
前接收到的信号决定下一步该发送什么。该信道展现了网络信息 
论的另一个基本 特征： 反馈。反馈使发送器可互相使用彼此的部 
分信息而实现相互协作。 

—般悄形下的双程信道容辧区域还不知道。该信道是香农 
[486] 首先提出的，他获得了该区域的上下界(参见习® 15.15〉。 

对髙斯信道，这两个界重合，因此，高斯信道的容憊区域已为人 
们所知。事实上，高斯双程信道可以分解为两个独立信道。 



-- Y, 


图 15-6 双程信道 


设 Pl 与 P 2 分别为发送器1与2的功率， N , 与 N 2 为两信道的噪声方差。那么码率 R x < 

是可达的，这可以利用在干扰信道中描述的技术来实现。此时产生 
两个码率分别为尺 i 与/? 2 的码簿。发送器1发送第一码簿中的码字。接收器2接收到两个发送 
器发送的码字以及噪声的叠加信号。只要简单地从叠加信号中剔除发送器2发送的码字，就可 
获得一个等同于直接从发送器1到接收器2的净化了的信道(仅有方差为的噪声）。于是，双 
程高斯信道分解为两个独立高斯信道。但是，这并不代表一般的双程信道。一般情况下，两个发 
送器之间存在着一种平衡关系，使得它们不可能同时以最优码率传送信息。 

15.2 联合典型序列 

我们已通过考虑多用户髙斯信道，预示了网络中容 M 的一些结论。本节我们给出详尽的分析， 
首先需要给出第7章中证明过的联合 AEP 的推广形式，来证明网络信息论中的定理。联合渐近均 
分性质 ( AEP ) 将使我们能够计算本章中考虑到的各种编码方案的联合典型译码的误差概率。 

设 (Xp X 2 ，…， 为有限个离散随机变量的集合，其固定联合分布为/>(〜， x 2 , …，： r *), 
Up x 2 ，…， … xY *。 设 S 为这些随机变量的一个有序子集，并考虑 S 的”次 
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独立重复 S^Si, $，•••，&)，其中所有 s, = s。 于是 

m 

PriS = s| = Tigris, = 5,1 S” (15-20) 

其中 <S 表示 S 中全体随机变量所对应的字母 i 的乘积空间。例如，若 S = (X,, Xd， 贝且 

PrlS = si = Prl(X” X/) = ( x ,， X/ 〉| (15-21) 

=11 pU h9 x u ) (15-22) 

为明确起见，有时用 x(s) 替代 s。 由大数定律，对随机变量的任意子集 s, 

- 丄 lpg/KSp S 2 ， …， S”） = - log/>(S.) -*• H(S) (15-23) 

n n ,-i 

其中对于 2* 个子集中的任何一个子集 X 2 , …， X*|, 收敛性以概率1成立。 _ 

定义随机向 ft(X p …，X*)的 e 典型的且长度为 n 的序列 (&,&,•••, 々)的集合 A 卜定义为 
A [ n ) ( X (l \ X l2 \ X ⑷） 

== |( Xl , x 2 , …， x*) : 一 ^ logp ( s ) - H ( S ) < VSe IX ⑴, X ⑵，…， X(*”| 

(15-24) 

其中 〜 = (&,,•••, x h ) 9 S, = S 对所有 * •成立。 

令 A^(S) 表示将 A 卜限制在 S 上。因此，若5 = (；^,\ 2 )，则我们有 

Ai n ) ( X lt X 2 ) = l(x,, x 2 )： 

- 丄 logpu” x 2 ) - H(X,, X 2 ) < €, 

n 

- ~log/>(X|) - H(Xj) < £, 

|--^Iogp(x 2 )-H(X 2 ) < cl (15-25) 

定义我们将用记号表示当 《 足够大时， 

| 士 loga”-6 <e (15-26) 

定理 15.2.1 对任意 €>0, 对足够大的 r?， 

1. P ( A [ n ) ( S ))>\- e t VSQ|X (,) , X⑵，…，X⑴ I. 

2. s6Ai" ) (S)=>/>(s)=2" (//(s,± * > . 

3. lAi" ) (S)l=2 n(H(s)t2f> . 

4. 设 S" S 2 Q1X ⑴， X( 2> ，…， X u) |, 若 (s" S 2 ), 則 

p{sx I S2> = 2~" (H(S ' ,S * )±2<, . 

证明： 

1 . 由 Ai n) (S) 的定义及随机变 ft 的大数定律可得。 

2. 由的定义直接得到。 

3. 由于 

2 p ( s ) 

«^ A ； a ， ( S ) 

^ 2 2-" (H(S)4t) (15-32) 

w ^ A [ m \ S ) 


(15-27) 
(15-28) 
(15-29) [52 T 

(15-30) 


(15-31) 
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= 1 At ) ⑸ 

(15-33) 

若 《 足够大，我们可得出 

1 - 2 / *( s ) 

^A ； -(S) 

(15-34) 


<2 2 -邮 

(15-35) 


• 

= \A ( l n \S)\2' n(H(s) - t) 

(15-36) 


结合式 (15-33) 与式 （15-36), 对于充分大的我们有1/\卜（5)1 士 2” <w(s>±2t) 0 

4. 当 ( Sl , yeAWSA ) 时，可得 />( s 1 )=2-- (w<s . )i « , , p( Sl , % >士2-”叫印 
因此， 


pis , \ ^) = 士 2 - (15-37) 口 

522] 下面的定理已知一个典型序列，给出条件典型序列数目的界估计。 

定理 15.2.2 设 S " S 2 为 X " X 2 , …，&的两个子集。对任给 e >0, 定义表 
示与特定的序列52构成联合 e 典型的所有序列 s , 的集合。 * s 2 eA ^ ) ( S 2 ), 那么对充分大的 n , 
我们有 

\ A i r ) ( S l I S2)l <2" (ms ' ,s * )42,) (15-38) 

以及 

(1 - c )2" ( H ( s . , V -2«)< 2 / >(%)l Aj w ) ( S 1 |%)l (15-39) 

证明： 如定理 15.2.1 的第3个性质，我们有 

1 > 2 />(s, I %) (15-40) 

> 2 2- 祕 I’V 20 (15-41) 

= I Ai n , ( S , I S2 ) I 2* n(H(s - ,s » >+2,) (15-42) 

若 n 充分大，则由式 (15-27), 我们可得出 

1-€< D />( S 2) D pUk ) (15-43) 

、 W ，( s,v 

< Z />( S 2) S 2-" (H(s . ,s * ) - 2t) (15-44) 

= S /)( S 2) I I Sz ) I 2 _”( h(s i s !)- 2 ，） （15-45) 口 

要计算译码的误差概率，需 k 知道条件独立序列为联合典型的概率。设&， s 2 与 s 3 为 
IX ⑴， X ⑵，…， X ⑷ I 的三个子集。记 s '" 5' 2 和5' 3 为另外三个随机向 M , 满足在给定 S '3 下 
[523] %和5' 2 条件独立，而且 （ S' lf S ' 2 , S ' 3 ) 与 （Sp S 2 , S 3 ) 具有对应的相同的两两边际分布，则我 
们有如下关于联合典型概率的结果。 

定理 15.2.3 Aj n ) 表示概牟密度函數 pUp s 2 , s 3 ) 的典型集,并且令 

P(S、 = Sj, J ?2 = %，疹 3 = S 3 ) = it p(su I S 3 l ) p ( s 2i I s 3 l ) p ( s 3i ) (15-46) 

l-l 


那么 


P\(S\ 9 S\ 9 S # 3 ) 6 A[ n) \ =2" (,(s « ;s ^ s ^ )±6c) 


(15-47) 
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证明： 为了避免分开计算上界与下界，我们利用式 (15-26) 中的记号土。于是 
PUS ；, S ^, S ；) € A["M 

= S p ( S 3)/»( s 1 |%) p ( s 2 ls 3) 


(15-48) 


土 |A 卜 （Sp S 2 , S 3 ) 12-" (H(S 3 )± «>2"" (H(s > ,s » )±2e) 2' ,,(H(S 2 ,s > )±2e, (15-49) 

士 2»(H(S,. s 2 . S,)±c)2-»(W(S J )±f)2-»(H(S | !S,)±2c)2-«(H(S,lS 3 )±2c) (15-50 〉 

= 2 - ” （/( 〜 s ^ ,s 3 )±6<, (15-51 )□ 

利用该定理，我们将根据具体情况特别地选取 Sh s 2 * s 3 , 以完成本章中的各类有关可达 
性的证明。 • 


15.3 多接入信道 


多接入信道是我们第一个要详细考察的信道。在该情形中，两个（或更多）发送器对同一个 
接收器发送信息。该信道如图 15-7 所示。具有许多独立地面站的人造卫星接收器，或者一群手 
机与某个基站的通信都是这种信道的最典型的例子。我们可以看到发送器不仅要面对来自接收 
器的噪声，而且还要面对自身相互间的干扰。 


% 




W 15-7 多接人信进 


定义离散 无记忆多接入信道由 3个字母表 A , A 与 义 以及概率转移矩阵 p ( y \ x l9 x 2 ) 组成。_ 
定义多接入信道的（(2^|, 2%), rz ) 码由以下五个部分 组成： 两个称 为消息 集的整 数集： 


W 】=| l ， 2,…,2% 

I 与 W 2 =| l , 2,…，2^1,两个编码函数 

X x : w,-^r 

(15-52) 

和 

X 2 ： W 2 —ATJ 

(15-53) 

以及一个译码函数 

g ： y n ^ w x xw 2 

(15-54) 


该信道有两个发送器与一个接收器。发送器1从集合 II ，2, …， 2说，）均匀地提取下标 Wi 
后经信道发送对应的码字。发送器2工作原理类似。假设乘积空间 W ^ xVV ^ 上的消息服从均匀 
分布（即消息为独立等可能的），我们定义（(2%, 2%),幻码的平均 误差概 率如下 •• 


p [ n) = ) S Priyy 71 ) 关 （议！，议 2) I ( 切1 ， 加2 〉 被发送 I (15-55) 

2 » 2 (*,. -^evv.xw, 

定义对于多接人信道，若存在一个（（2<，2<), n ) 码序列，使 P 卜 — 0,那么称码率对 


( R " 尺 2 )关于该信道是可达的。 

定义多接人信道的容量区域为所有可达码率对(尺,，尺 2 )的组成集合的闭包。 

多接人信道容量区域的一个例子如图 15-8 所示。我们首先以定理的形式给出容量区域的具 
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体描述。 


R! 




图 15-8 多接人信道的容量区域 


定理 15.3. U 多接入信道的容量区城〉多接入信道 ( AxAT 2 , p ( y \ x l9 x 2 ), : V )的容量区城 
为满足下列条件的全体 （ Ki , R 2 ) 所成集合的凸闭包，即如果存在之 iXY 2 上的某个乘积分布 
/ >l(^l)p2(^2)» 使得 

R x < /( X ,; y | X 2 ) (15-56) 

R 2 < UX 2 ; y | X ,) (15-57) 

R { ^ R 2 < /( X ,, X 2 ; V ) (15-58) 

在证明该区域是多接人信道的容贵区域之前，先考虑几个多接人信道的例子。 

例 15.3. U 独立二元对称信道） 假设有两个独立的 2 元对称信道，其 中一个 来自于发送器 
1, 另一个来自于发送器 2, 如图 15-9 所示。此时，由第 7 章的结论得知，我们珂以码率 1 - 
在第一个信道上发送信息，以码率 1- f /( p 2 ) 在第二个信道上发送信息。由于信道是独立 
的，发送器间无干扰。此时的容最区域如图 15-10 所示。 



图 15-9 独立二元对称信道 图 15-10 独立 BSC 的容量区域 
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例 15.3.2( 二元乘法信道） 考虑一个带二元输入与二元输出的多接人信道 

Y = X , X 2 (15-59) 

该信道称为二 元乘法信道。 容易看出，若设定 X 2 = l , 可以从发送器1到接收器之间以1比特/ 
传输的速率发送信息。同理，设定 Xiti , 可以达 
到速率尺 2 =1。显然，由于输出是二元的，发送器1 
与发送器2的组合速率尺 i +尺 2 不能超过1比特。 

通过分时作业，我们可以达到任何满足尺,+尺 2 = 1 
的速率组合。因此，它的容量区域如图 15-11 
所示。 

例 15.3.3( 二 元擦除多接入信道） 该多接人信 
道具有二元输人，即;^=心=|0, 11以及三元输出 
y = x , + x 2 c 如果收到 y = o 或 y = 2 , (x,, x 2 ) 并 
不具有含 糊性； 但是， y = i 可能是由于输人 ( o , u 或 
( i ， o ) 产生的。 

现在考虑两个轴上的可达码率。取 x 2 = o , 我们 
可由发送器1以速率为1比特/传输发送信息。同样， 

取:^=0,我们可以按 速率& =1发送。这样，给出了容敏区域的两个极端点。我们可否做得更好? 

假定 Rfl , 则&的码字集必须包含所有 SJ 能的二元序列，；^可以看作 Berroull ^ 过程。相对于 

从乂 2 发送的信号而言，&的行为如噪声一般。因此对于 X 2 , 该信道看起来是如图 15- 12所示的信 

道。这是第7章中的二元擦除信道。回顾其结论，我们得知该信道的容 t 为 | 比特/传输。因此，当 

发送器1以&大速率1发送信息时，可以让发送器2发送另外的1/2比特。在后面导出容楸区域之 
后，可以验证这些速率是所有可达的且最佳的速率。二元擦除信道的容徹区域如图 15- 13所示。 




用户2等价于单用户信道 


15.3.1 多接入信道容置区域的可达性 

我们现在来证明定理 15.3.1 中码率区域的可达性。逆定理的证明留到下一节。可达性的证 



明与单用户信道的证明非常类似。因此，我们仅强调证明中与单用户情形的不同点。先证明在 
某固定的乘积分布/ >(&)/>(&) 之下满足式 (15-58) 的码率对的可达性。在 15.3.3 节，我们再推 
广到关于式 (15-58) 的凸包中的所有点的可达性的证明。 

证明（定理 15.3.1 中的可达 性）： 固定 p ( x lt x 2 ) = p x ( x l ) p 2 U 2 )o 

码簿的生成。产生2#个相互独立且长度为 n 的码字 X〆 :)，2,…，2<|,其中每个 
码字的 n 个分量为 U . d. 〜 ft p ,(^ u ) o 同样，再产生个独立码字 X 2 ( j ), j € U ， 2, …， 

i-l 

2咻|, 其中每个码字的 rz 个分童为 i . i . d . 〜 ft /> 2 ( x 2 l ) c 并且这些码字组成的码簿对于发送器 
与接收器都是公开的。 ^ 

编码。 为了发送下标发送器1发送码字 X »( f ), 同理，为了发送），发送器2发送码字 X 2( j )。 
译码。以 A 卜表 示所有典型的 ( Xl , x 2 , y ) 序列构成的集合。接收器 V "根据满足 

( Xl («), x 2 (», y ) € A :”） （15-60) 

选取下标对 （ D )。 若这样的下标对（: •，）) 存在且惟一，那么译码 完成； 否则，宣布出错。 

误差概率分析。 由随机码构造的对称性，条件误差概率并不依赖于具体发送的下标对。因 
此，条件误差概率与无条件误差概率是相同的。所以，不失一般性，可假设发送的一对下标为 
(/, )) = (1, 1)。 

在下列情形下我们会 出错： 正确码字与接收到的序列是非典型的，或者有一对不正确的码字 
与接收到的序列是典型的。定义亊件 

Ml = KX〆 ,)， X 2 (>), Y )6 A^l (15-61) 

由事件 之并的概率不等式， 

Pl ">= P(£ c n (15-62) 

<P(Fi») + E P(E,i) + S P(Eij) 

if *!. /•! #»1. 

+ E P(^) 05-63) 

•^1. i #» 

其中 P 表示在发送 （1, 丨）下的条件概率。由 AEP , 知 F (£ c „)-0 o 由定理 15.2.1 与定理 
15.2.3, 对1•关1,我们有 

P (£, i )= P (( X ,( i ), X 2 ( l ), Y ) € A [ n) ) (15-64) 

= s PWp(x 2 ， y) (15-65) 

<1 A [ n) \ 2-" ( h ( X « ) ~ c ) 2'" (h(x *- v) ^ c) (15-66) 

^2-" (h(x . )+h(x 2* x,. Y)-w (15-67) 

= 2 *" (,(X * S y) ~ 3,) (15-68) 

= yiX J ) - 3e> (15-69) 

其中的等式 （15-68) 和等式 （15-69) 是由于 & 与 X 2 相互独立，从而有 /(X 1； X 2t Y ) = UX x ; 
x 2 ) + /(x 1； y|x 2 ) = /(x 1； y|x 2 )o 同理，对 j 关 i 

F (£ li X 2-" <,( ^ ! Y!X » ) - 3e) (15-70) 

以及对 


于是，可以推出 


P(E 0 X2- 


(15-71) 
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尸 （ E ^) + 2^2^ (,(x . ! y，x *>- 3 * ) + 2^2 - nU{x ^ y,x .>- 3 «> 

+ 2" < j ? i + R ? ) 2 ' n(,(x f x » ! y)_4f) (15-72) 

由于 e >0 是任意的，则由定理条件可以推出当 rz — oo 时，每一项都趋向于0。于是，被发送出去 [531 
的码字在条件作用下，当该定理的条件满足时，误差概率趋于0。上面的界估计说明，平均误差 
概率(均值遍历在随机码构造中所有可能选取的码簿）可任意地小，这是因为由对称性可以推出 
其等于单个码字的概率。因此，至少存在一个其误差概率可以任意小的编码 

至此完成了对固定的输人分布式 (15-58) 中区域的可达性的证明。稍后在 15.3.3 节中，我们 
将证明，分时操作可使凸包中的任意 (/?,, R 2 ) 都是可达的，从而完成定理前面部分的证明。 □ 
15.3.2 对多接入 倍道容量区域的评述 

现在已证明了对于 IixY 2 上的某个分布 p x U x ) p 2 U 2 )， 多接人信 道容量 区域的可达性，该 
区域是满足下面条件的点 （ i ^, 尺 2 )所成集合的 
凸闭包， 

Rx < I ( X l； Y I X 2 ) (15-73) 

R 2 < /( X 2 ； V I X ,) (15-74) 

i?i + i?2 < /( x ,, X 2 ； y ) (15-75) 

对某特定的 P ^ x x ) p 2 U 2 ), 该区域如图 15-14 
所示。 

我们现在对区域的角点给出解释。点 A 对 
应于当发送器2没有发送任何信息时，从发 
送器1到接收器发送信息的敁大可达码 
率，即 

maxi ?, = ^ max^/(Xu Y \ X 2 ) (15-76) 

现在对于任意“ 由于平均值 

不会超过其中的最大项，可得 

I ( X xi y | X 2 )= 2/> 2 ( x 2 )/( X l； Y \ X 2 = x 2 ) (15-77) 

< n ^ x /( X l； Y \ X 2 = x 2 ) (15-78) 

因此，当取 X 2 = x 2 时，式 （15-76) 中的最^值可达，其中: r 2 为使&与 Y 间的条件互信息最大 
化的值。而对 Xi 的分布的选取要求使互信息达到最大。因此，通过令 X 2 = x 2 , X 2 —定有利于 
X ,的传输。 

点 B 对应于当发送器1以最大码率发送信息时，发送器2发送信息可以达到的最大码率。 

该码率可以通过将；^看成是从乂 2 到 y 的信道噪声时得到。此时，由单用户信道得到的结论可 
知， x 2 可以以码率 kx 2; y ) 发送信息。接收器现在知道到底是哪个 x 2 码字被发送了，并且能 
够将其输出效果从信道中“减去”。此时，我们可以将该信道看作是带有一个下标集的单用户信 
道，其中的下标即是使用的：^ 2 的符号。这时， X ,珂以达到的码率就是针对这些信道而取的平均 
互信息，且每个信道出现的次数与对应的 x 2 符号在码字中出现的次数相同。因此，可以达到的 
码率为 

^ p ( x 2 ) Ux l； y | x 2 = x 2 ) = /( X l； y | x 2 ) ( 15 - 79 ) 

而点 c 与 D 分别对应于将两个发送器的位罝交换时的 B 与 A 。 非角点可以通过分时操作而达 
到。于是，我们对多接人信道的容 M 区域给出了单用户的解释及其正当的理由。 



图 15-14 具冇固定输人分布的 
多接人信道的 n 了达区域 
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在上述讨论中，将其他的信号考虑为噪声的一部分，译码单个信号并将其从接收到的信号中 
“减去”的思想是非常有用的。我们将在退化广播信道的容量的计算中再次碰到这个思路。 


15.3.3 多接入 倌道容量区域的凸性 

我们现在来重温多接入信道的容量区域，为了将取凸包的运算考虑进去，我们引进一个新的 
随机变童。为此，首先证明容鼋区域为凸集。 


定理 15.3.2 多接入信道的容量区域 C 是凸的[如果 （ i ^, R 2 )€ CMR [, R f 2 )^ C t 則对0< 
A <1, 均有 + A /? 2 + ( l - A )/^) ee ]。 

证明： 证明思路是利用分时操作。给定两个码率对分别为 R =(&, 尺 2 )与 R ' = (/^， 冗）的 
编码序列，可以建立码率为 AR +(1- A 〉 R ' 的第三个码簿，具体方 法是： 对于新码簿中长度为 m 
的码宇，前; U 个字符取自码字长度是 An 的第一个码簿，而后 （1- 》）”个字符取自码字长度是 


( l - A ) n 的第二个码簿。从而，在这个新码簿中，关于&的码字数 M 为 


(15-80) 


因此，新编码的码率为 AR +( l -/ OiT 。 由于总的误差槪率小于每个部分误差概率的总和，于是， 
新编码的误差槪率趋向于0,且码率 珥达。 □ 

我们现在用一个分时随机变 ft CJ 来改写对多接入信 道容* 区域的叙述。在给出该定理的证 
明之前，还需要证明凸集的一个性质，这里的凸集是由线性不等式界定的可以看作多接入信道的 
容世区域。特别，我们将证明两个由这种线性约束决定的区域的凸包等于由这些线性约束条件 
的线性组合决定的区域。初看，两种集合的相等似乎很显然，但动手检査就会发现，里面存在一 
个陷阱，这是因为某约束条件不活跃。为了说明这一点，我们列举下面两个由线性不等式界定的 


集合： 

C, = Ux, y )： x^0 9 y^0 9 y<10, x + y<100i (15-81) 

C 2 = |(x, y )： y^0 9 x<20, : y<20, x + >^<20| (15-82) 


此时，对应于 D 约束条件的凸组合定义的区域如下 •• 

C = Kj , y ): x ^0, y ^0 9 x < 15, y < 15, x + .y < 601 (15-83) 

不难看出， Q 或者 C 2 中的点满足: r + ： y<20 。 所以， C, 与 C 2 的并的凸包中的任何点也满足该 
性质。从而， C 中的点 （15, 15) 不在 （ QUO 的凸包中。该例子也暗示了该问题的原因所在：界 
定匕的约束条件 ： r + ： y<100 是不活跃的。假如将约束条件换成 : r + jy<«, 其中 a <20, 那么上 
述两个区域的等同性结论为真，正如我们下面将要证明的那样。 

我们仅对五边形区域(是两用户多接人信道容量区域的重要组成部分)进行讨论。此时，对 
于面定的夕 ( xO / Ka ) •倍道容童区域是由三个互信息 y|x 2 ), nx 2; 71&)与 mx" 
X 2 ; Y ) 来界定的，分别记为/ z 2 与/ 3 。于是，任给的 p ( x { ) pUi )> 对应一个向量 i = ( L , / 2 , 
J 3 ) 以及一个码率区域，其定义 如下： 

C , = l ( R ,, R 2 )： Ri >0 9 i ? 2 ^0, R 2 < h 9 Ri ^ R 2 < h \ 05-84) 

另外，由于对于任何分布 p ( x l ) pU 2 ), 我们均有 

/(x 2 ； y|x 1 )= h(x 2 \x x )- h(x 2 \ y, x,) 

= H(X 2 ) - H(X 2 \ y, X x ) 


= I(x 2i y, x,) 

= i(x 2 ； y) + I(X 2i x,l V) 
>nx 2 ； y) 
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因此， i ( x l； y|x 2 ) + /(x 2 ； y \ x x )> kx ^ y|x 2 ) + /(x 2 ； y) = /(x 1 , x 2 ； y), 于是，对于 

所有向量/，均有/, + 该性质将给出定理的临界。 

引理 15.3.1 令 Ip 1 2 6尺 3 是两个互信息向量，分别定义码率区域 q 与 C v 如式 （15-84) 

所定义。对任意 0< A <1, 定义 I A = AIi + (l - A ) I 2 , 并以 q 记 I A 所定义的码芈区域，那么 

C 、 = AC ^ + (1 - (15-85) 

证明： 分两步证明该定理。首先证明集合与 C " A , 1- A ) 组合中的任何点都满足约束条 
件 I A 。 这是一项直截了当的检验工作，因为中的任何点满足关于 I 的不等式，而 C & 中的任何 
点也满足关于1 2 的不等式。所以，这样的两点关于系数 ( A , 1- A ) 的凸组合必满足约束条件关于 
系数 ( A , 1- A ) 的凸组合。于是，可以推出 

AC ^ + (1 - C , 4 (15-86) 

为了证明相反的包含关系，考虑五边形区域的极端点。不难看出式 (15-84) 所定义的码率区域总是五边_ 
形，或者在供端情形 / 3 = /, + / 2 W , 为 矩形。 于是，容量区域 Q 依然玎以定义为以下五个极端点的 凸包： 

(0, 0)，（小0)，（/,， / 3 - / i ). (/ 3 - J 2 , J 2 ), (0, J 2 ) (15-87) 

考虑 I 所定义的 区域； 它也是由五个点来决定的。任取一个点，不妨设为（/^- 。那 

么，该点可以改写为（/以-/^,片 》 ）与（/严 - d /产）关于系数 ( A , 1- A ) 的凸组合，因此， 

落在（:卩与的凸组合中。于是，五边形 匸卩 的极端点落在 (:卩 与的凸包中，或者 

C l4 Q AC \ + (1 - (15-88) 

综合两部分论证，我们得到定理的证明。 □ 

在该定理的证明过程中，我们暗自用到了这样一个 事实： 所有码率区域完全由五个极端点决 
定(在 M 糟糕的悄形，五个极端点有的相等）。所有五个点都是由向 ft 1所决定且落在码率区域 
内。如果条件匕‘/丨+^不满足，式 (15-87) 中某些点或许会在码率区域之外，那么证明就崩溃。 

作为上述引理的推论，我们有如下定理： 

定理 15.3.3 由单个向量 I 所定义的码芈区城的并的凸包等于由相应的单个向量 I 的凸组 
合所定义的码率区域 3 

关于码率区域的凸包运算与互信息的凸组合的等价性的讨论手法可以推广到更一般的 m 用 
户多接人信道。沿用该思路并使用矩阵多项式理论的证明过程在 Hant 271] 中给出。 

定理 15.3.4 离散无记忆多接入信道的可达码率集为满足下列条件的所有 （ Ki , /? 2 )的集合 
的闭包，即如果选择某个联合分布 p ( q ) p ( x \ \ q ) p ( x 2 \ q ) p ( y \ x\t X2 )， 使得 

Ri < /( X l5 y|X 2 , Q ) 

R 2 < nx 2 i Y \ X lt Q ) 

R x + R 2 < I ( X l9 X 2 ; Y \ Q ) (15-89) 

其中 IQI <4。 _ 

Q (表示分时随机变量 Q 的字母表。一译者注） 

证明： 我们将证明落在式 (15-89) 所述区域内的每对码率都是珂达的(落在满足定理 15.3.1 所述 
的凸闭包中)。我们还将证明定理 15.3.1 中的区域的凸闭包中每一点也在式 (15-89) 定义的区域中。 

考虑满足定理中不等式组 (1 S 89) 的区域中的某码率点 R 。 我们可将第一个不等式右边改写为 

I ( X l； Y \ X 2f Q )= S />( 9 )/( X 1； VlX 2 , Q = g ) (15-90) 

= 2/>(*7)/( X 1； Y \ X 2 ) p ^ Pu (15-91) 

9=1 f 



其中 m 为 Q 的支撑集的基数 3 同理，我们可以将其他互信息展开。 

为了使记号简单起见，将每对码率视为一个向量，并将在特定的输人乘积分布 P U U X ) 
p 2 ,( x 2 ) 之下满足不等式组 （15-58) 的码率对记为 R 9 。 具体地，设 R g = (/? w , 尺 2 ,)为满足下列条 
件的码率对 

心 < 7( X 1； Y \ X 2 ) PuWPu{Zj) (15-92) 

Ru < nx 2 ； YlX 山 〜 Ui) 05-93) 

+ R 2q < UX lt X 2 ； y) Pu ( Xt ,p 2f(Xj ) (15-94) 

此时，由定理 15.3.1， R q = ( R lq , 尺 29 )是可达的。由于 R 满足式 （15-89), 且可类似于式 （15-91) 
那样将式 （15-91) 右边展开，故存在一组满足式 （15-94) 的 R 9 , 使得 

R = J ] p ( g ) R 9 (15-95) 

由于可达码率的凸组合仍然是可达的，所以^也可达。因此，我们证明了定理中所示区域的可达 
性。同理，可以证明式（15-58〉中所述区域的凸闭包中的每点均可写成满足式 （15-94) 点的混合 
_形式，因此，可写成式 (15-89) 的形式。 

逆定理在下一节中证明。逆定理说明所有珂达码率对都有式 （15-89) 的形式，由此确立了式 
(15-89) 描述的区域就是多接人信道的容量区域。分时随机变里 Q 的字母表基数的界是关于凸 
集的 Caratheodory 定理的推论。请看如下的讨论。 □ 

容 tt 区域的凸性的证明说明可达码率对的任意凸组合也是可达的。我们可继续该过程，考 
虑更多点的凸组合。那么，我们是否需要用到任意数撖的点？容燉区域是否会增加？下面的定 
理将告诉我们，答案是否定的。 

定理 15.3.5(( hmr / iiaioo 0 d 维欧几里得空间中的紧集 A 的凸闭包中的任意一点可表示 
为初始集合 A 中个或更少的点的凸组合。 

证明：证明可参阅 Eggleston [183] 与 Griinbaum [263]。 口 

该定理使得我们在计 算容* 区域时只要将注意力放在确定的有限凸组合上。这是一个很 ® 
要的性质。如果没有该定理，不可能计算出式 （15-89) 的容 M 区域，因为我们永远无法知道使用 
更大的字母表 Q 是否会增加容 M 区域。 

在多接入信道中，不等式定义出了三维空间中的一个连通紧集。因此，其闭包中的所有点，均 
坷由至多四点的凸组合决定。因此，在以上的容量区域的定义中，可将 Q 的基数限定为不超过4。 

注释换个角度来考虑，许多基数不等式总会有所改进。例如，如果我们现在只对容量定理 
中 A 的凸包的边界感兴趣，那么，该边界上的每个点都能表示为 A 中的^个点的组合，这是因 
为 A 的边界上的点必然位于 A 与某个 d - 1维支撑超平面的交集中。 

15.3.4 多接入倌道的逆定理 

网 我们已证明了容量区域的可达性。本节我们证明其逆定理。 

证明（定理 15.3.1 与定理 15.3.4 的逆定 理）： 我们必须证明，对于任何给定满足的 
((2 哟)码序列，其码率码率对 ( ,尺 2 )必须满足 

i ?,</( X 1； m 2 , Q ) 

R 2 < HX 2 ； Y \ X lt Q ) 

R 2 < I ( X lt X 2 ； Y \ Q ) (15-96) 

选择定义在 Il ，2,3,4| 上的随机变 M Q 与联合分布 I q ) p { x 2 \ q ) p ( y \ oc l , x 2 )o 固定 
Tz , 考虑分组长度为 《 的编码。上的联合分布是已知的，其中的随机性 
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仅源于均勻地选取下标与 W 2 以及信道本身产生的随机性，因此，联合分布为 




1 1 11 

^R 2 P(^l i ^ 2 )11 p(yi I 工 li ， 工 2.) 


(15-97) 


其中，当即码字与 M 对应)时，/>(4|1^)为1,否则为0。同理， pU” 2 U 2 ) = l 或 
0,取决于 x" 2 = x 2 (u; 2 ) 是否成立。后面的所有互信息都是根据该分布而计算的。 

由编码的构造过程可知，凭借接收到的序列 Y\ 可以很低的误差概率将 （W U W 2 ) 估计出 


来。因此，给定V", (1^，研 2 )的条件熵必定很小。由费诺不等式， 

H ( W lt W 2 \ Y")< ”（& + R 2 ) P ( e n) + H ( Pi n ) )^ nz „ (15-98) 

显然，当 Pf— 0时，％—0。于是，我们有 

H(W,| rXH(W lf W 2 | V")<n£ B (15-99) 

H ( W 2 \ r)<mw 1 ,w 2 | Y")<ne n (15-100) 

我们现在可以给出关于码率的如下不等式 

nK,= H(W,) (15-101) 


= uw l； r) + H(w,| r*) 

</( W l； V ") + nc n 

( b ) 

^/(XKW ,)； Y") + W £ n 

=H(X1(W V ))- H(X" 1 (W 1 )|y") + W £„ 

^H(X n l (W l )\X n 2 (W 2 )) - r.X^Wz)) + W e n 

=/(^(w ,)； rlx- 2 (vv 2 )) + W e n 

=|X" 2 (W 2 )) - H(Y n \X n l (W l ) t X n 2 (W 2 )) + ne n 


(15-102) 

(15-103) 

(15-104) 

(15-105) 

(15-106) 

(15-107) 

(15-108) 


= H(Y"|X?(W 2 )) - t ] H ( Y i \ Y i ' l 9 X m l ( W l ) 9 X H 2 ( W 2 )) + nc n (15-109) 

<-i 


= H(y"lx"2(w 2 )) - Sh(y i Ix 1i ,x 2i ) + 

<•1 


(15-110) 


H(y, 1X5( w 2 )) - I ； H(y l lx lI ,x 2l .)-f n£ n 05-111) 

i -1 i *! 

<SH(y,lx 2i ) - EH(y,lx lf ,x 2l ) + (15-112) 

<■1 «-1 


=S/(X ll； y,lx 2f ) + n£ n (15-113) 

其中 

(a) 由费诺不等式推出 

(b) 由数据处理不等式得到 

(c) 由于％ 与％ 是独立的，因此， WW) 与 A" 2 (W 2 ) 也独立，于是，有 
Hixiiw ,)), 以及由于条件作用使熵烕小，则 mxKvv^l r,x" 2 (w 2 )X//(xi(w 1 )| r) 

(d) 由链式法则得到 

(e) 由于信道的无记忆性，V ,仅依赖于 与;^ 

(f) 由链式法则以及剔除条件作用 （removing conditioning) 得到 
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回 


( g ) 由进一步剔除条件作用而得 
因此，我们有 

Ri^^tlUXu ； Yi\X 2i ) 


类似地，可以得到 


^ 2 < tSHX 2i5 V , IX Il ) + e n 


为了给出码率之和的上界，我们考虑 

R 2 )= H ( W Xt W 2 ) 


= I(w lt w 2 ； r) + H(Wi ， W 2 | Y") 

<I(W 19 W 2 ； y") + n£ n 

丄 X" 2 (W 2 ); Y") + 7i£ n 
=H( Y") - H( V" |X1( W 2 )) + W e n 

= H(r) - ^H(Y i \Y i ' l 9 X](W l ),X H 2 (W 2 )) 

• ■! 

= mv")- imn,x 2l ) + 庇 ” 

<2h(V,)- SHO r i IX lif X 2l ) + nc B 
•*1 

= S/(X„,X 2| .; y.) + 


其中 


(15-114) 

(15-115) 

(15-116) 

(15-117) 

(15-118) 

(15-119) 

(15-120) 

(15-121) 

(15-122) 

(15-123) 

(15-124) 


( a ) 由费诺不等式得到 

( b ) 由数据处理不等式得到 

( c ) 由链式法则得到 

( d ) 由于 y , 仅依赖于&，与而与其他所有亊件条件独立 

( e ) 由链式法则与剔除条件作用得到 
因此，我们有 

R t + R 2 ^^^ HX li 9 X 2i i V ,) + (15-125) 

表达式（15-114)，表达式 （15-115) 与表达式 (15-125) 是使用码簿中第 i 列的经验分布为概率分布 
计算出的互信息的均值。我们可用新变最 Q 改写这些方程组，其中 Q = *€ ll ,2, …， nl 的概率 

为1。则方程组成为 




(15-126) 


= Y q \ X 2q9 Q = i ) + e " (15-127) 

n i=i 

=/(X IQ ； y Q IX 2 Q ,Q) + c n (15-128) 

=/( X 1； y | X 2 , Q ) + 6 n (15-129) 

其中 X , AX 1Q , X 2 AX 2Q 以及 YAYq 为新的随机变景，分布依赖于 Q , 其方式就像 Xu , X 2 , 
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及 y , 依赖于/那样。由于 Wi 与独立，因此，于是 

Pr ( X ll ( W 1 )= x ,, X 2 f ( W 2 ) = x 2 ) 


APr | X l0 = x,|Q = ilPrlX 2Q = x 2 1 Q = i \ (15-130) 

因此，当 72 —①， 极限 0, 我们有下面的逆 命題： 

尺， < nx 1; m 2 ， Q) 

R 2 ^ HX 2 i Y \ X lt Q ) 

R { + 尺 2 < /(X,,X 2 ； y|Q) (15-131) 

对某选取的联合分布 MdpUdgVUddMjyU, ，: r 2 )。 15.3.3 节已说明，若我们将 2 的基 
数限制到4,该区域是不变的。 

这就完成了逆定理的证明。 □ 

至此， 15.3.1 节中的定理 15.3.1 所述区域的可达性得到了证明。在 15.3.3 节中，我们证明 
了式 （15-96) 中定义的区域的每一点都是可达的。对其逆定理，我们证明了式 （15-96) 中的区域是 
我们可做到的最佳区域。这就证明了它实际上就是信道的容最区域。因此，式 （15-58) 所述区域 
不可能比式 (15-96) 所述区域大，从而式 （15-58) 所述区域即是多接人信道的容景区域。 


>2) 个发送器的悄形。此时的多接入信道 


15.3.5 m 个用户的多接 入倍道 

我们现在要将关于两个发送器的结论推广至 mi 
如图 15-15 所示。 

我们从发送器1，2,…， m 通过信道分别独立地发送下 
标 u ^, u ; 2 ，…， u ^。 其中编码，码率以及可达性等定义均与 
两个发送器时的情形相同。 

设 SQ |1,2, …， ml , 记汶为 S 的补 集。 令尺 （ S ) = 
llRi , S ) = U , : f € SI ,则我们有下面的定理。 

定理 15.3.6 m 个用户的多接入信道的 容量区 城为滿 
足如下条件的所有码 芈向量 所成集合的凸闭包， 即 对乘积 
分布 使得 

R ( SXUX { S ); Y \ X ( S [ )) 对所有 SQ | l ，2,.", m | (15-132) 

证明： 该定理的证明不需要新的思路。在可达性的证明中，只要考虑 2 m - l 项误差 概率； 在 



逆定理的证明中，需要的不等式数目也是相同的。详细证明留给读者。 
通常，式 （15-132) 中的区域为一个斜多面体。 


□ 


15.3.6 离 斯多接入倌道 

我们现在对 15.1.2 节中讲到的高斯多接人信道进行更为详尽的讨论。 

两个发送器 Xi 和 X 2 向同一个接收器 Y 发送信息 3 在时刻/收到的信号为 

Y , = X u + X 2l + Z f • (15-133) 

其中， | 乙 I 为独立同分布的零均值高斯随机变董序列 a 
方差为 N (图15-16)。假设对发送器 j 的功率限制为 
P ,, 即对每个发送器以及所有的消息，必须满足 

士 E 4( 叫)<匕 一 

% e 11,2,…,2^1, > = 1,2 (15-134) 

正如同将离散情形信道容 M 的可达性证明（见第7 图1516高斯多接人信道 
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章)可以推广到高斯信道情形(第9章)那样，也可将离散多接人信道的证明推广至高斯多接人信 
道。其逆定理的证明也可作类似的推广，于是，可预期该容量区域为满足所有下列条件的码率对 
构成集合的凸包，即存在满足 EXKPi 与 £ X 2 2 < P 2 的某个檐人分布 / iUJ / zUj , 使得 


R l ^ I ( X l ； Y \ X 2 ) (15-135) 

/( X 2 ； y | X ,) (15-136) 

544| i ?! + I ( X l 9 X 2 ; Y ) (15-137) 

接下来将互信息利用相对熵展开，即 

/( X I ； Y | X 2 )= h ( Y \ X 2 ) - h ( Y \ X lt X 2 ) (15-138) 

= h ( X t + X 2 + Z \ X 2 ) - h ( X x + x 2 + Z \ X lt X 2 ) (15-139) 

= h ( X x + Z \ X 2 ) - h ( Z \ X lf X 2 ) (15-140) 

= h ( X x + Z \ X 2 ) - h ( Z ) (15-141) 

=/*( X , + Z )-/ z ( Z ) (15-142) 

= h ( X t + Z )- ylog (27 re)N (15-143) 

< ylog (27 re )( P , + N ) - jlog (2 ne)N (15-144) 

= U 5-145) 


其中式 (15-141) 由 Z 独立于 \ 与&得到，式 (15-142) 由&与 X 2 的独立性得到，式 (15-144) 则由于 
对给定的二阶矩，正态分布使得熵 JS 大化的事实推出。因此，&与 X 2 独立时，进大化分布为 
Af(0,P { ) t X 2 〜 Y(0,P 2 )。 该分布同时也使得式 (15-135) 〜式 (15-137) 中作为上界的互信息最大化。 
定义我们定义信道容镦函数为 

C(x)JlYlog(l + x) (15-146) 

对应于信噪比为 x( 图 15-17) 的岛斯 白噪声信道的信道容 M 。 





图 15-17 高斯多接人信道容量 




此时，关于的上界写为 




(15-147) 


同理， 


(15-148) 


以及 

Ri + (15-149) 

当义〜乂⑺，/ 5 ,)与 X 2 〜AT(0,P 2 ) 时，这些上界可达，从而定义了容最区域。关于这些不等式， 

可以得出一个令人惊奇的 事实： 码率之和可以达到它与单个发送器在功率尸,+尸 2 
之下发送信息的情形有相同的可达码率。 

对于转角点的解释，也与对固定输人分布的离散多接人信道的可达码率对的解释完全类似。 

在髙斯信道情形下，可将译码过程考虑为两步骤 处理： 第一步，接收器对第二个发送器发送的信息 

进行译码，此时， 将第一 个发送器视为噪声的一部分。当只时，该译码的误差概率 

很低。第二个发送器成功地译码以后，从总体输出信号中剔除该信号。那么， 当圮 时， 

可以正确地译码第一发送器发出的信号。因此，上述讨论说明我们可以通过单用户操作达到容 ffl 
区域的转角点处的码率。这种处理过程称为 利洋葱 (onion-pcding), 可以推广到多用户的情形。 

若将其推广为有相同功率的 m 个发送器的情形，那么总码率为 C(^) 0 由此推出，当 m-oo 

时，总码率趋向 于⑺。 而每个发送器的平均码率 ) 趋向于0。因此，当发送器的总数非常大时_ 

会产牛相当大的干扰，此时，尽管单个发送器的码率趋向于0,但可以发送的信息总 ft 还是任意大。 

上述容 fit 区域对 应着码分多址 (code-division multiple access,CDMA) ，其中对于不同发送者的 
编码是分区处理的，接收端译码则是逐个处理。在许多实际情形，会采用一些较为简单的方案， 

比如频分多路技术 (frequency-division multiplexing ) 或者时分多路技术。由频分多路技术可知，码 • 

率取决气 1 分配给单个发送器的带宽。考虑具有功率 h 与尸 2 的两个发送器的情形，使用两个不 
相交的频带带宽与 W 2 , 其中 W ^ W 2 = W (总带宽)。利用单用户的带宽有限信道的容置公 
式，下面的码率对是可 达的： 

尺1 = ^ilog(l + ]^r) (15-150) 

尺2 = W 2 log(l + j (15-151) 

当改变 Wi 与 W 2 时，可得出如图 15-18 所示的曲线。该曲线与容量区域的边界有一接触点，该 
点意味着分配给每个信道的带宽与该信道的功率成比例。我们可得出这样的结论：对于若干个 
电台，只有当所有分配的带宽与对应的功率成正比时，对应的频带分配方案才是最优的。 

在时分多址 (time~division multiple access，TDMA) 中，时间被分割为时段，每个用户只允许在 
指定时段内传输而其他用户等待。如果有两个用户且功率均为 P， 那么一个发送另一个等待情 
形的码率为 c ( p / n )。 现假设时间分为等长时段， a 奇数时段分配给用户1而偶数时段分配给 

用户2,那么每个用户可达的平均传输率仅为士（：（尸/]\0。该系统称为 朴素的时分多址系统 



( TDMA)o 但是，如果用户丨只发送一半时间，且在发送期间使用两倍的功率，并且依然保持平 
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均功率约束条件不变也是可以的。在这种修正下，每个用户使用 f C ( fVN ) 传输速率发送信息 

是可能的。通过改变分配给每个用户的时段的长度（以及在该时段的瞬时功率），可以达到与具 
有不同频带分配的 FDMA 方法相同的容 tt 区域。 

如图 15-18 所示，容量区域一般大于分时操作法或 R] 

分频多路法可达到的码率集合。然而注意，对所有发送 
器只要使用同一个译码器就可以达到前面导出的多接人 c (£ l ) 

容最区域。但是，通过剥洋葱方法也可以达到该容量区 A \ 

域，该方法剥离了一个公用译码器，取而代之，用一系 

列的单用户编码。 CDMA 达到整个容世区域，并在不改 c (^-) - \ V , 

变当前用户编码的情况下使得新用户很容易进入。另一 \、、 \ 

方面， TOMA 与 FDMA 系统通常是为固定群体设计且可 ''、、、 j 

以让一些时段空置（当实际用户数少于时段数时）或者 _ ■ '、I r 

让一些用户离线(当用户数大于时段数时)。但在许多实 ° C (-^) c ( pr ) Rl 

际应用的系统中，设计的简洁性是一个重要的考核指 … N 

标，前面介绍过的多接入想法来提离信道容*,我们可 图 15-18 FDMA 和 TOMA 高斯 
以发现容 M 区域的扩大不是复杂度增加的充分条件。 多接人信 道容澉 

对具有 m 个功率为户:，/^,…，的信源以及功率 N 的环境噪声的高斯多接人系统，任何集 
合 S 有髙斯公式平移为下列形式 

^ R ,= 穿过曲面 S 的信息流的总码率 (15-152) 


(各) 


m 15-18 FDMA 和 TDMA 高斯 
多接人信道容嫩 


<C 


(割 


(15-153) 


15.4 相关信源的编码 


现在探讨分布式数据压缩。在许多方面，数据压缩与多接人信道问题是对偶的。我们 P 经知 
道如何对单个信源X 进行编码，码率是充分的。假如有两个信源 （ X , y) 〜/ >(x,：v)。 
若将它们一起编码，则码率 f/(x，y) 是充分的。但是，对于希望重构 x 与 y 的某些用户来说, 
这意味着必须将 x 信源与 y 信源分开描述，此时码率如何？显然，将 x 与 y 分开编码，码率 
/? = i^ + K v >H(X) + my) 是充分的。但是，在 Slepian 与 Wolf[502] 的令人称奇的重要论文 

中，证明了即使对相关信源迸行分开编码，总码率 K = H ( X ， YO 也是充分的。 

设…为独立同分布且服从 P (： T ,： y ) 的联合分布的随机变竜序列。假定 x 
序列处于位置 A , Y 序列处于位置 fi , 如图 15-19 所示。 



图 15-19 Sepian-Woif 编码 
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在证明这个结论之前，先给出一些定义。 

定义联合信源 （X，y) 的（（2<,2%>, 72) 分 布式信源编码 （distributed source code) 包含两个 
编码映射， 

/ 1: 於—11，2,...，2<1 (15-154) 

/ 2: y” — 11,2，...,2喲| (15-155) [549 

与一个译码映射， 

g:|l，2, …，2必|| x 11，2,…，2<1 — A (15-156) 

这里，/，(:^)对应于V的下标， / 2 (V") 对应于V的下标。（仏，尺 2 )为编码的码率对。 

定义分布式信源编码的误差概牟定义为 

• Pi n) = P(g(/,(X w ),/ 2 (y"))^(X",r > )) (15-157) 

定义称码率对(心，尺 2 )关于分布式信源是可达的，如果存在一列（（2<，2<)，”）分布式信 
源编码，其误差概率 W。 可达码率区域为所有可达码率集合的闭包。 

定理 HUS ， epia”-Wo ， f) 对于 i.i.d •〜 />( 了，>0 的信源 （ X, Y) 的分布式信源编码 问題， 

可达码率区域由下面的式子给出 

R,>H(X|V) (15-158) 

R 2 ^ H ( Y \ X ) 05-159) 

Ri + R 2 > H(X,V) (15-160) 

我们给出一些例子说明该结论。 

例 15.4.1 考虑 Gotham (美国纽约市的别名）与 Metropolis 的天气情况。假设 （kuham 为晴天 
的概率为 0.5, Gotham 与 Metropolis 有相同天气的槪率为 0.89 u 天气的联合分布如下： 


p(j-.y) 

Metropolis 

. _ -- - 

下兩 

咏 

Gotham 



下甬 

0.445 

0.055 

繭 

0.055 

. 1 

0.445 
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假设要传送100天的气象资料给华盛顿的国家气象服务总部9在两地都可传送100比特的 
气象资料，从而总传送可以是200比特。若决定将信息独立地压缩，则我们在每地仍然要传送 
100 H (0.5) = 100 比特的信息，而需要总传送200比特。然而，如果使用 Slepian - Wolf 编码，那么 
总共只需要传送 H ( X ) + H ( VIX ) = 100 H (0.5) + 100 H (0.89) = 100 + 50 = 150比特。 


例〗 5.4. 2考虑下面的联合 分布： 

p ( u t v ) I 

0 1 

: 

0 

丄 丄 

3 3 

1 

0 - i 


此时，传输该信源所需的总码率为 HU ；) + H(V|[；) = log3=1.58 比特，如果不使用 Slepian - 
Wdf 编码，那么要独立传输这些信源所需的总码率是2比特。 

15.4. 1 StepiarvWolf 定理的可达性 

我们现在来证明 Slcpian - Wolf 定理中的码率可达性。在进入证明之前，介绍利用随机盒子方 
法得到的一种新编码方案。随机盒子的基本思想与散列函数非常类似：为每个信源序列随机地 
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选取一个下标。若典型信源序列集足够小(或者等价地，散列函数的取值空间足够大），则不同的 
信源序列有不同下标的概率很高，并且可以用对应的下标恢复出信源序列。 

让我们考虑该思想对单一信源的编码应用问题。第3章使用过的方法是对典型集中的所有 
元素给出下标，但不考虑典型集以外的元素。下面描述一下随机盒子流程，它首先对所有序列给 
出下标，但在以后的步骤将非典型序列删除。 

考虑下面的 流程： 对每个序列 X ",从11,2, -,2^1 中随机取出一个下标。由相同下标的序 
列 X "构成的集合可以视为形成了一个盒子 （ bin )。 这可以看作旨先放置了一排盒子，然后将 P 
随机地投人盒子中。要想通过盒子的 F 标将信源译码，我们从盒子中找出一个典型 f 序列。如 
551] 果该盒子中有且仅有惟一的典型序列 V ，将其作为对信源序列的估计又、若不然，宣布出错。 

上面的流程定义了一个信源码。为了分析该编码的误差概率， 现将； T 序列分成两类 ：典型 
序列与非典型序列。若信源序列是典型的，则对应该典型序列的盒子将至少包含一个典型序列 
(信源序列本身)。因此，只有当盒子中超过一个典型序列时才会出错。如果信源序列是非典型 
的，则总出错。但是，若盒子的数目远远大于典型序列的数目时，1个盒子中含有超过一个典型 
序列的概率非常小。因此，典型序列被译码出错的槪率将会非常小。 

下面我们给予严格的叙述。设 /( X ") 为对应于 X "的盒7的下标。译码函数记为总。误差概 
率(关于随机选取的编码/取均值)为 

P(g(/(X))^XX P(x?! A [ m) ) + S ^(3 x ^ x：x € A [ n \ f ( x ) 

s 

=/(x))p(x) 

S X ： P (/( x ) = f ( x )) p ( x ) (15-161) 

* W 
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+ E E 2 ^(x) 

* ■ 

=€ + E 

• t A U, * 


(15-162) 

(15-163) 


<€+ Lr # (15-164) 

+ 2 " ( H ( X > + « ) 2 - nR (15-165) 

<2 c (15-166) 

如果 /?>^(；0 + €且《 充分大。因此，当码率大于熵时，误差概率可任意的小，且该编码与第3 
章中描述的编码具有相同的结论。 

上面的例子说明这样一个事实：有很多的方法坷以用来构造具有很低的误差概率且码率大 
于信源熵的编码。通用信源编码就是这种编码的另一个例子。注意，装盒子方法中，除/译码器 
之外，编码器并不要求对典型集的特性有清楚的认识。正是这个性质使得该方案对分布式信源 
情形照样适用，对此我们将会在定理的证明中说明。 

现在回到分布式信源编码与 Slepian - Wolf 定理中码率区域的可达性的证明中来。 

证明（定理 15.4.1 中的可达 性）： 证明的基本思想是将空间划分为2 十个盒子，; V ”空间划 

分为2%个盒子。 

随 机码的生 k 。 根据 U ,2,... ,2< I 上的均匀分布，将每个独立地分配到个盒子 
中的一个。类似地，随机地将 yey ” 分配到2 ★个盒 子中的一个。然后，将分配方案力与/ 2 对 
编码器与译码器都 公开。 
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编码。发送器 1 发送 X 所在的盒子的下标。发送器 2 发送 Y 所在的盒子的下标。 

译码。给定接收到的下标对（心,九〉，如果存在且只存在一对序列使得/^)= 
/ 2 ( y >=) o 。 那么宣称 ( ij ) = ( x ， y )。 否则，宣布出错。该方案如图 15 - 20 所示。 X 序列构成 
的集合与 y 序列构成的集合按如下方式分配到盒 子中： 一对下标特指一个乘积盒子。 



个联含典型序列对 
(尸,/> 


图 15-20 SleptaivWolf 编码： 联合典型对由乘积盒子分离开 




误差概率。设 u ,， y , 卜 〆 ：,夕〉，定义事件 

E 0 = l(X.Y)^ A[ n) \ (15-167) 

E,= |3x ^X ： /,(x) = f x (X)K(x\Y) e A[ n) \ (15-168) 

£ 2 = 13 ，关丫 :/ 2 (/) = / 2 (¥) 且 (\ ， /)€ 八卜 | (15-169) 


以及 


£ 12 - \3(x\y)ix^X 9 f^Y f f t (x) 


= A ( X ), f 2 ( y ) = / 2 ( Y ) 且 ( 〆 ，/) € A 卜 >1 ( 15 - 170 ) 

其中 X . Y ,， 与 / 2 是随机的。当 ( X ， Y ) 不在 A 卜中， 或同一盒子中有另一典型序列时，译码出 
错。因此，对事件之并有如下事件的界， 

P { e n) = P(E 0 U E { U E 2 U £ 12 ) (15-171) 


< P(E 0 ) + ?(£!) + P(E 2 ) + P(E l2 ) (15-172) 

首先考虑 £ 0 。由 AEP, P(E 0 X 从而，当 《 充分大时，尸 (Eo)<e 。 为了界定 /"(&) ，我们有 
P(E,)= P\3x^=\ ： Mx) : /,(X), 且 (x' ， Y)e (15-173) 

=E/>U ， y) 尸 I 关 x ： /i(x ) = A(x)Ax 9 y)e A^l (15-174) 

(*. T ) 

<Sp(x,y) S P(/i(x) = /i(x» (15-175 〉 

=E/>(x,y)2-^|A c (X|y)l (15-176) 

(*. y ) 

< 2~^2 n(Hix y,+f) (由定理 15.2.2) (15-177) 


所以，当 y ) 时，尸(£!)趋向于0。因此，对充分大 的”， 有 PAKe 。 同理，当 i ? 2 > 
myix ), 且 n 充分大时，有 p ( E 2 )< e 。 以及当 K + 时，有 p (£ 12 )< e 。 由于 

平均误差概率 <4 e ， 故至少存在一个码(/「，//<•),其误差概率<41因此，我们可构造出一 
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个码序列，使 Pl n ) -^)。 这就完成了可达性的证明。 

15.4.2 StepiarvWolf 定理的逆定理 

Slepiar ^ Wolf 定理的逆定理由单信源情形的结论明显可得出，但是为了完整起见, 
将其给出。 

证明（定理 15.4.1 的逆定 理）： 一如既往，从费诺不等式人手。固定/丨，/ 2 
/ 0 = /,( X "), Jo = / 2 ( Y ")。 則 

mX -. rl / o . JoXP^^Oogl ^| + logl 3^1) + 1 = W £„ 

其中当~时，现在加人条件，则我们又有 

H(X"|y",/ 0 JoXne n 

以及 

由此我们可得如下的系列不等式 

niR, + R 2 )%HU 0 J 0 ) 

= /(x" f y" ； /oJo) + H(/ 0 J 0 lx",y") 

= /(X",y" ； / 0 Jo) 

= H(X n 9 Y n ) - H(X" f rl/oJo) 

多 H ( X "， V ") _ 成” 

= nH(X f Y) - nt n 

其中 

( a ) 由 / 0 €11，2，...，2<|与 < / 0 €11，2，...，2%1得到， 

( b ) 由 / 0 为 X ” 的函数与九为 V "的函数得到， 

( c ) 由费诺不等式 (15-178) 得到， 

( d ) 由链式法则与 ( X ,， y ,) 为 i . i . d . 得到。 

类似地,利用式 (15-179), 我们有 

nRSmio) 

>H(1 0 \ r) 

= /(x"；/ 0 l v") + m/olx^.v") 

= /(X";/ 0 l V") 

^ H ( X "| Y ") - ne n 
= r ,( H )( X | V )- r2€ n 

理由与前面的方程相同。同理，我们可证明 

nR 2 ^nH{Y\X) - 

不等式两边同时除以并令 ①取 极限，我们就可得到想要证明的逆定理。 
Slepian - Wolf 定理中所描述的码率区域如图 15-21 所示。 


□ 

我们依然 
和片。记 
(15-178) 
(15-179) 
(15-180) 

(15-181) 

(15-182) 

(15-183) 

(15-184) 

(15-185) 

(15-186) 


(15-187) 

(15-188) 

(15-189) 

(15-190) 

(15-191) 

(15-192) 

(15-193) 


(15-194) 

□ 
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图 15-21 SI 印 ian - Wolf 编码的码率区域 


15.4.3 多倍源的 StepiarvWolf 定理 

15.4.2 节的结论可轻易推广至多信源情形。证明步骤完全相同。 

定理 15.4.2 设 ( U 2 •，…人)为那么对任何具有多个分开的 
编码器与一个公共译码器的分布式信源编码，它的所有可达码率向量的集合滿足对任意的 SG 
U ，2，."， ml ，有 

R ( S ) > H ( X ( S ) IX ( S C )) 05-195) 


其中 

R ( S ) = y , R , (15-196) 

.es 

证明： 证明与两个随 机变请 的悄形相同，在这里省去。 □ 

对 i . i . d . 相关信源的 Slcpian - Wolf 编码的可达性已经 得到了 证明，然而，该证明可轻易地推 
广到满足 AEP 的任意联合信源情形；特别地，其珂推广到所有的联合遍历信源 [122 j 情形。此 
时，码率区域定义中的熵改用相应的熵率替代即坷。 


15.4.4 Slepian - Wolf 编码定理的解释 

我们将利用图着色方式对 SlepiaivWolf 编码中码率区域的转角点给出解释。考虑码率为尺 


h ( x ), R 2 = myix ) 的点。使用比特，我们可 
对； T 进行有效编码，且译码器能以任意小的误差槪率 
将； T 重构。但是，怎样才能用比特将 V "进 
行编码？如图 15-22 所示，用典型集的视点看该图，我 
们可看出，与每个给定的 X 71 形成联合典型的所有 V "序 
列组成一个典型“扇形”。 

若 y 编码器知道 V "，编码器可发送该典型扇区中 
的 P 的下标。译码器也知道 X "，则可建立起该典型扇 
区，从而重构出 V %但是， y 编码器并不知道 X %因 
此，不尝试确定典型扇形，该换成随机地用2%种颜色 



对所有 P 个序列着色。若颜色的数目足够大，则在特定扇区中的所有颜色将会不同（概率很大) 


且 V - 序列的颜色将会惟一地定义 X "扇形中的 V "序列。若码率则扇形中的颜 


556 


557 


色数目相对扇形中的元素数目是指数增大，我们可证明该方案的误差概率将以指数衰减。 

15.5 Slepian-Wolf 编码与多接入信道之间的对偶性 

对于多接人信道，我们考虑了在一个双输人与单输出的信道上发送独立消息的问题。而对 
Slepian - Wolf 编码，我们考虑了在无噪声信道上发送相关信源，并使用一个公共的译码器重构两 
个信源的问题。本节我们探讨这两个系统的对偶性。 

在图 15-23 中，两则独立的消息以序列 XI 与； T 2 的形式经信道被发送出去。接收器通过接 
收到的序列来估计这两则消息。在图 15-24 中，相关信源编码为“独立”消息；与接收器利用 
i 与 j 的知识来估计信源序列。 



围 15-24 相关位源编码 


在多接入信道的容量区域可达性的证明中，我们用到了从消息集到序列$与； C " 2 的一个随 
机映射。而在对 Slepian - Wolf 编码的证明中，我们又用到了从； T 与； C •序列集到某个消息集合的 
一个随机映射。在多接人信道编码定理的证明中，误差槪率满足不等式 

P ( e n) < e + E PK 与接收到的序列构成联合典型的码字） （15-197) 

= e + 2 2 2-4 + 2 (15-198) 

其中 e 为序列是非典型的概率，尺为码率，对应于贡献误差概率的码字数目。而 A 为相应的互 
信息，对应着码字与接收到的序列为联合典型的概率 D 
在 Slepian - Wolf 编码情形中，误差槪率可以表达为 

P <">< € + S Pi ■(具有相同码字） （15-199) 

= e + S 2-^. + 2] 2-^ + E 2-卿〜 (15-200) 

其中，不满足 AEP 限制的概率的上 k 仍然是 e , 而另外的项则 表示： 当给定信源对时，一对序列 
或者是联合典型的，或者在同一盒子中等情况。 
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多接人信道与相关信源编码的对偶性至此已是显而易见的了。这两个系统彼此对偶是相当 
令人意外的，人们也许原本期待的是广播信道与多接人信道的对偶性。 

15.6 广播信道 

广播信道是具有单个发送器与两个或更多接收器的通信信道，如图 15-25 所示。广播信道的 
基本问题是求广播信道中通信的同时的可达码率集。在开始分祈之前，先来考虑一些例子。 



m 15-25 广播信道 


例 15.6.1( 电視台） 广播信道最简单的例子是无线电台或电视台。但是该例子在一定程度 
上有些退化。通常电台要发送相同的信息给所有接收该台的人，所以，容《实际上是 max p w 
min , I ( X ; Y ,) 9 这可能比最差的接收器的容请还要小。然而，我们可能期望将信息以如下方式安 
排，使得较好的接收器可接收到额外的信息，其产生出吏好的画面或者 声音； 同时，较差的接收 
器依旧能够接收到更基本的信息。当电视台采用高清晰电视 ( HDTV ), 其需要将信息进行编码使 [5601 
得较差的接收器依然接收到常规的信号，而较好的接收器将接收到额外的商淸晰信号信息。实 
现该想法的方法将在广播信道的讨论部分给出。 

例 15. 6. 2( 教室 中的讲 演者）教室中的讲演者要把信息传达给班上的学生。鉴于学生间存 
在的差异性，他们接收到的信息 《 是不同的。一些学生收到大部分的信息；另一些仅接收到一小 
部分。在理想的情况下，讲演者可整理其讲演使得好的学生可接收到更多的信息，而很差的学生 
也至少接收到最基本 M 的信息。但是，没有备好课的讲演者却会按最差的学生的步调来进行。 

这是广播信道的另一个例子。 

例 15. 6. 3( 正 交广播信道）最 简单的广播信道由到两个接收器的两条独立信道组成。对此 
情形，我们珂在两条信道上发送独立的信息，并且当 
，尺 2 < C 2 时，对于接收器1,我们可以达到码 
率尺对于接收器2,我们可以达到码率尺 2 。容童区 
域如图 15-26 所示的长方形。 

例 15.6.4( 西班牙语与荷兰语讲演者） 为了揭示 
叠加的思想，将考虑以下的简化例子。有一个讲演 
者，会讲西班牙语与荷兰语；有两个 听众： 一个只懂 
西班牙语，另一个只慷荷兰语。为简单起见，假设每 

种语言的单词量为 2' 讲演者对每种语言都是以每秒__ 26 两个正交广播信道的容最区域 
1个单词的速度说话。如果他一直对听众1讲话而不 [5611 

理会听众2, 那么他可以每秒20比特的信息量向听众1传递信息。同样，如果他不理会听众1, 

那么他也可以每秒20比特的信息量向听众2传递信息。因此，通过简单的分时操作，他可以达 
到满足心+尺，20的任何码率对。但是，他是否还可做得更好？ 
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注意，对于荷兰语听众，即使他不懂西班牙语，但是，他可识别出何时演讲者说的是西班牙 
语。同样，对于西班牙语听众，他也能识别何时是荷兰语。讲演者可以采用如下方式传达信息。 
臂如，他使用每种语言的时间均占 50% ，那么，一个由 100 个单词组成的序列，其中大约 50 个为 
荷兰语， 50 个为西班牙语。但是，对西班牙语和荷兰语单词的排列有许多种 方式； 事实上，大约 

有种排列单词的方式。选取一种排列来对两类听众传递信息。该方法可使讲演 

者以每秒10比特的码率对荷兰语听众，每秒10比特的码率对西班牙语听众，且每秒〗比特的公 
共信息对两类听众，共计每秒21比特的码率对两位听众传递信息。这比分时操作可达的码率要 
高。这就是一个信息叠加的例子。 

广播信道的结论同样可应用于具有未知分布的单用户信道情形。此时，我们的目标是当信 
道较差时，至少要获得最低限度的信息，而当信道很好时，要获得超额的信息。我们可用广播信 
5621道中关于费加的讨论，求得可发送信息的码率。 

15.6.1 广 播倍道 的定义 

定义--个广 播信道 (broadcast channel ) 是由输入字母表义，两个输出字母表％与夂，以及一 
个概率转移函数 P (: Vi ，: y 2 U ) 组成的系统。如果 p (/，： v 5 l /)= /l 那么称该广 

i" I 

播信道为无记忆 (memory less ) 的。 

仿照多接人信道，我们来定义广播信道的编码，误差槪率、可达性和容 tt 区域。发送独立信 
息的广播信道的一个((2%, 2唤）， n ) 码是由以下要家组成： 


一个编码器， 

X :( ll ， 2 , …, 2 必 .1 x |1，2，”.，2<|>— 

(15-201) 

以及两个译码器， 

发 1: ；^一|1，2广-,2<1 

(15-202) 

和 

幻:; V 卜{1,2，」,2%| 

05-203) 

我们将平均误差槪率定义为译码后的消息不同于发送消息的概率，即 



P \ n) = P (^( V 1) 关 Wi 或 g 2 (\ T 2 )^ W 2 ) 

(15-204) 


其中，假设 （ W | f W 2 ) 在2^ x 2%上服从均匀分布。 

定义对于广播信道，如果存在一列((2#,2<)，”)码， P 卜 — 0,那么称码率对(/^，/? 2 )是 


可达的。 

我们接下来定义当公共信息发送给两个接收器情形下的码率。对于一个带公共信息的广播 
信道，一个（(2<,2%,2%),«)码由以下要素构成： 

一个编码器 

X : (| l ,2，...，2 ni M x 11,2，..，2也.|>< 11,2,…，2%1)— AT ” <15-205) 

以及两个译码器 

gl : yr — ll ，2，."，2 "^|x 11，2,…，2成，1 (15-206) 

— 和 

563] g 2: y ; — II ,2, -,2^1 x 11,2, …，2咚1 (15-207) 

假设关于 （ Wo , 的分布为均匀分布，我们可定义误差概率为译码后的消息不同于发送消 

息的 槪率： 


Pi n) = 


(15-208) 
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定义如果存在一个（（2<，2<，2%)，； 1 )码序列使/^ ) —0,那么称码率三元组 U ^,%， 

K 2 ) 关于带公共信息的广播信道是可达的 3 

定义广播信道的容量区域为所有可达码率的集合的闭包。 

我们观察到接收器 N 的误差仅依赖于分布/>(/,%)而不是联合分布 p ( x \ yr x , f 2 ) o 于是， 

我们得到下面的 定理： 

定理 15.6.1 广播信道的容量区域仅依赖于条件边际分布与 p ( y 2 \ x ) 0 

证明： 留作习题。 □ 

15.6.2 退化广播倌道 

定义称一个广播信道是物理退化的 （physically degraded ), 如果其转移概率满足 

= Piy\\^)piy2\y\) 

定义称广播信道是随机退化的 （stochastically degraded ), 如果其条件边际分布与一个物理 
退化广播信道相同，即若存在分布 p ( y 2 \ yi )， 使得 

p(y2 1 I ^)p (yi I >»i) 、 (15-209) 

注意到由于广播信道的容*仅依赖于条 j 牛边际分布，随机退化广播信道的容请区域与相应 
的物理退化信道是相同的。因此，在下面的大部分讨论当中，我们将会假设信道是物理退化的。 [564] 
15.6.3 退化广播倍道的容置区域 

我们接下来考虑在退化广播信道中分别以码率尺1和尺 2 对 h 和 h 发送独立信息。 

定理 15.6.2 在退化广播信道 X - Vi - Vj 上发送独立信息的容量区域为满足下列条件的 
所有 U ^, K 2 ) 构成集合的凸闭包，即如果存在某个联合分布 p ( u ) p ( x \ u ) p ( y lt y 2 \ x ) t 使得 

尺 2 < I(U;Y 2 ) (15-210) 

尺,< /( X ; Y,I L ；) (15-211) 

其中辅助随机变量 L ； 的基數有上界 | W |< min || A 1,|； V , U ； V 2 ||。 

证明： （辅助随机变被 U 的基数的上界可以由凸集理论中的标准方法导出，这里不作详述。） 

我们首先简要概括对广播信道的 ft 加编码的基本思想。辅助随机变 ft U 视为可被接收器匕与 
Y 2 识别出来的聚类中心 (doud center )。 每个聚类由可被接收器 L 识别的个码字 X "组成。 

M 差的接收器仅能看见聚类，然而较好的接收器可识别聚类中的各码字。该区域的可达性的正 
式证明用到了随机码方法：固定 〆 《)与 p ( x \ u ) 0 

随机码簿的生成。依据分布 /> U ,) 生成个长度为《的独立码字 U ( u ； 2 ), u ； 2 etl ,2, 

<-1 

…，2%|。对每个码字 U ( w 2 ), 由 /> UU , (加 2 ))生成个独立码字 X ( i ^, u ， 2 )。 这里 u ( f ) 

起着可被、与 y 2 认知的聚类中作用 • 而 x(i ,)) 为第 * •个聚类的第）个附属码字。 

编码。为了发送 （ VVhVVO , 必须发送相对应码字 

译码。接收器2确定惟一的心 2 ,使得 （ U ( i 2 ), Y 2 ) GA 卜。 若这样的心 2 不存在或者不惟 
一，则宣布出错。 

接收器1寻找惟一的（％,你 2 )使得 （ UI (你2^ X (%，你如果这样的（你 h 
你 2 )不存在或者存在不惟一，那么宣布出错。 

误差概率分析。由编码生成过程的对称性知，误差概率并不依赖于发送的具体是哪个码字 。 M 
因此，不失一般性，不妨假设是发送的消息对。令 P (0 表示在已知（1，1)被发 
送的条件下一个事件的条件概率。 

由于我们实质上拥有从 U 到 Y 2 的单用户信道，那么，如果尺 2 < KKY 2 ), 我们就能够以 
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小的误差概率将1/码字译码。要证明这一点，我们定义事件 

E Yi = l ( U ( O f Y 2 ) e A [ n) \ (15-212) 

则接收器 2 处的误差概率为 

/^叫2)= P(£Vi UUE k ) (15-213) 

< P (£ Vi ) + T , P ( E Yi ) (15-214) 

作1 

< 6 + 2 nR a ~ nU(UiY ^ ) ~ 2t) (15-215) 

<2 c (15-216) 

当 W 足够大，且尺 2 < KL /; Y 2)。 其中式 （15-215) 由 AEP 得到。同样地，对于接收器1的译码， 
我们定义事件 

£ yi = 1(13(0,1)6 Ai ”）| (15-217) 

E Yij = 6 A [ n) \ 05-218) 

其中，〜符号表示所定义的事件对应于接收器1。于是，我们有关于误差概率的不等式 

^(1)= P(EVi U £Vn UUEy , UUEyi ,) (15-219) 

< P ( EVi ) + P ( EVii ) + SP ( Eyi ) + SP (£ yi >) (15-220) 

与接收器 2 相同，我们有不等式 P (左 y ,)<2_”" ⑴ : y ， >：：3<) 。 因此，时，第三项趋 
向于0。另外，由数据处理不等式与信道的退化性， I ( U ; Y l )> HU ; Y 2 )o 于是由定理条件可导 
出第三项趋向于0。我们也可以得出误差槪率中第四项的不等式为 

P ( E yij )= P (( V ( l ) 9 X ( lJ ) 9 Y t ) e A ^>) (15-221) 

=E PdVCD . XdJ )^)) (15-222) 


=S 


P(U(1))F(X(1,»|U(1))P(Y 1 |U(1)) 


■” <H(XI ⑺ 


(15-223) 


(15-224) 
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^ 2»( H ( i /. x . y 1 )+«)2-"( H ( u )- c )2-»«( H ( xiu )- e )2-» CH ( v 1 it ；)-«) (15-225) 

= 2 -" (,<x：y . ，U) - 4<) (15-226) 

因此，当 /^〈/( X ; KILO 时，误差槪率中的第四项趋向于0。于是，当”足够大，且 
与 &</( X ; yil L /) 时，我们可得出误差概率满足不等式 

P /)( l )< e + e + 2^2- (/(Usy - ) - 34) + 2" /? .2-- (,(Xiy ' ,u) - 4c)， (15-227) 

<46 (15-228) 

上面的界说明我们译码信息的总误差概率耐以趋向于0。因此，存在一个好的（（2^,2%)，”）码 
序列 C « :,其误差概率趋向于0。由此，我们完成了退化广播信道容量区域的可达性的证明。 
Gallager 定理的证明在习题 15.11 中简要地给出[225]。 □ 

到此为止，我们已考虑了发送两个独立信息给独立接收器的问题。但是，在某些情形下，我 
们期望对两个接收器发送公共的信息。假如发送公共信息的码率为尺0,则有下面显而易见的 
定理： 

定理〗 5.6. 3如果码牟对（/^，尺])对于发送独立信息的广播信道是可达的，又假设尺 0 < 
mm ( R Xf R 2 ), 那么具有一个公共码率的码丰三元组-尺 0 ,尺 2 —尺 o ) 是可达的。 

在退化广播信道情形下，还可以做得更好。由我们的编码方案可知，较好的接收器总是对发 
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送给最差接收器的所有信息进行译码，当我们具有公共信息时，并不需要对发送给优秀接收器的 
信息董进行缩减。因此，我们有下面的 定理： 

定理 15.6.4 对于退化广播信道，如果码率对 （尺：，尺 2 )可达且 R 0 < R 2t 則码率三元组 （尺0, 

对具有公共信息的信道是可达的。 

我们以下面的二元对称广播信道的例子来结束本节。 

例 15.6.5 考虑参数分别为/与/> 2 的一对二元对称信道，其组成如图 15-27 所示的一个 
广播信道。不失一般性，在容童计算中，可以将该信道看成物 0 

理退化信道。假设/>1<^<士。此时，将具有参数/» 2 的二元 ^ 

对称信道表示为具有参数/^的二元对称信道与另一个二元对 
称信道的串联。设新信道的交叉概率为 a , 则我们一定有 

^( l-aj + d - p^a = p 2 (15-229) 画 

或者 


-2 Pl 


(15-230) 


现在考虑在容贵区域中定义的辅助随机变量 a 此时，由定理 
中的不等式得知，的基数为二元的。由对称性，将 I ；通过 
另一参数为的二元对称信道相连，如图 15-28 所示。 


图 15-27 二元 对称广播信道 





图 15-28 物理退化的二元对称广播信道 

我们现在计算容 M 区域中的码率。由对称性可知，使得码率最大化的 U 分布必然是 t 0, II 
上的均匀分布，因此 

hu ； y 2 )= h( y 2 ) - h( y 2 | u) (15-231) 

= \- H { p * p 2 ) (15-232) 

其中 

P * P2 = - P2) + (1 — P)p2 (15-233) 

同理， 

/(X ； Y,|U)= H(Y,| U ) - HCYjX.U) (15-234) 

= H( V, I t ；) - H( VjX) (15-235) 

= H ( p * Pi ) ~ H ( pi ) (15-236) 

其中 

P * Pi = PH - P \) + 0 - P)pi (15-237) 

将这些点作为的函数，得到如图 15-29 所示的容量区域。当0 = 0时，传送给 h 最大信息量 
[即尺 2 = 1 - mp 2 ) 与心=0]。当/5=1/2时，传送给 Yi 的最大信息请，即 R 丨 =1 - mh ) ，且 
此时没有对 y 2 传送信息。这些 a 的值给出了码率区域的转角点。 
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依赖于过去的观测数据: y u ，： y 12 ，…，: Vum 。 由于 （ Y ,， Yu ) 只依赖于从过去直到当前所传输的 
( X it X u ) t 在这种意义下，信道是无记忆的。于是，对任意选择的选择编码 X : 

以及中继函数1/1," =1 , 上的联合概率密度函数为 

n 

piw^yX^y.yx) = p(w) H p{x k \w)p(x u I yn ， yi 2 r-,yu-i) x p(y it y u I ; ，工 1,) 

(15-245) 

如果发送的消息为令 

X ( w ) = Pr |^( Y ) ^ w \ w 被发送 I (15-246) 

为条件误差概率。我们定义编码的平均误差概率为 



该误差概率假设下标集在比€11,…,2^1上的均匀分布下计算 3 对于中继信道，如果存在一列 
编码(2成，《)使 Pi n ) — 0,那么码率 K 称为可 达的。 中继信道 的容量 （： 为可达码率集的上确界。 

我们首先给出中继信道容贵的上界。 

定理 15.7.1 对任何中继信道容量 C 有上界 

C<^p min|/(X,X I ； y),/(X ； y, V, I X,)| (15-248) 

证明： 我们将在 15.10 节中给 ^ 更一般的最大流最小割定理，该定理只是它的一个直接推论。 □ 

该上界给出了一个漂亮的最大流最小割的解释。式 （15-248) 上界中的第一项给出了从发送國 
器 x 与;^到接收器 y 信息传瑜的敁大码率 • 第二项则是对从 x 到 y 与 A 的码率的定界。 

现在考虑一簇满足如下意义的中继信道，它们的中继接收器都优于拗终接收器 Y 。 此时，式 
(15-248) 中的最大流最小割上界是可达的。 

定义称中继信道山 yxyj 是物理退化的 ，如果 yjm ) 可写 
作如下形式 

p(y,yi I j.^i) = p(yi I x,x x )p(y I wJ (15-249) 

于是， Y 为中继信号 h 的随机退化。 

对物理退化中继信道，其容 ft 由以下的定理给出。 

定理 15.7.2 物理退化中继信道的容量 C 为 

C = p sup TninlI ( X 9 X l ; Y ) J ( X ; Y l I X,)l (15-250) 

其中，上确界取遍所有/※义：上的联合分布。 

证明： 

逆定理。由于退化中继信道满足 /( x ； y , = j ( x ; ，所以 该 证明可由定理 

15.7.1 与 退化性得出。 

可达性。可达性的证明由以下基本技巧结合得出： （1) 随机编码， （2) 编码清单， （3) Slepian - 
Wolf 划分， （4) 协作多接入信道编码， （5) 叠加编码， （6) 在中继发送器和发送器处进行分组马尔可 
夫编码。我们仅给出证明的要点。 

可达性的要点。 我们考虑 B 组传输，每组 n 个字符。于是，经过 nS 次 传输， 在信道上可以 
发送 B-1 个下标 切 ,€11 ， ”. ， 2 成 |，* = 1 ， 2 广 . ， 5_1 。 （注意到对固定的”，°°时，码率 
可任意地逼近尺。） 

定义码字的双重下 标集： 

C = |x(ir I 5), x 2 (5) I ： ii ； G |1，”.，2成1 ，5 G 11,”.,2成。| ,x 6 ^ n ,Xi G (15-251) 
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同时也需要 W = U ,2, 的一个划分 

57| S = \ S l 9 S 2 t -, S 2 ^\ (15-252) 

其中共有个单元，且满足 S , 门$ = 以及 US , = > V 。 这种划分使我们能够以 Slepian 和 

Wolf [ 502] 方式将边信息也发送给接收器。 

随机码的 生成。给定 

首先随机生成中的2#。个服从分布 />(〜）= 且长度为 n 的 i . i . d . 序列。它们的 

^*1 

下标定为 Xl U ), jeil ，2,，“,2" M 。 每个 X ,⑺再生成2#个服从 Mxlxdd ^ npUUs )) 的 

1*1 

条件独立的 n 长序列1(议|5),议€|1,〜,2叫 0 这样得到随机码簿 C = lx ( u ； U ), Xl ( s )|。 11,2,…, 
2必!的随机划分5= ISpSz ，…， S 产 I 定义如下。对于每个整数 u , eil ,2,-,2^ l , 根据下标 s = 
1,2,…,2<上的均匀分布独立地分配到各单元 S , 中去。 

编码。设11,2,…，2,是第:•组传输的新下标，巧为对应于叫 -1 的划分单元的下标， 

即编码器发送 x ( 叫 u )。 中继站前一个发送的下标叫- 丨有 估计值左,-丨(这将会在解 

码部分给出详细沦述)。假设茨，中继编码器在第 f 组传输中发送 X 1 d ,)。 

译码。在第:•-1组传输结束的时候，假定接收器知道(叫,1^,…，叫- 2 )与( 51 ,5 2 ，…， H ), 并且 
中继站也获得(1^,%,…,叫-山从而知道( 51 , 52 ,…, S ,)。 在第 /组 传輪结束时，其译码流程 如下： 

1. 根据已知的&和接收到的 yi ( i ), 中继接收器估计出所传递的消息 i , = u ; 当且仅当存在 
惟一的使得 ( x ( u ； U ), XiUhyJi )) 为联合 e 典 S 序列。如果 

R < J(X；y, I X ,) (15-253) 

且《充分大时，由定理 15.2.3, 可证明& =叫具有任意小的误差概率。 

2. 接收器宣布 = s 被发送了当且仅当存在且仅存在一个使 （ Xl ( s ), y (0) 为联合 e 典型 
的。如果 

_ R 0 < I ( X l ； Y ) (15-254) 

_且 n 充分大，那么由定理 15.2.1 我们知道， 5| 能够以任意小的误差概率被译出来。 

3. 假设 5| .被接收器正确地译码，那么接收器会将第 《• -1 组传输中所有可能与 yU _ 1) 构成 
联合典型的序列构成一个下标淸单 L ( y ( f -1))。 若有惟一的议包含于 S ~ nL ( y G _ l )), 则接收 
器宣布 = 比为第 《 组传输中发送的 T 标。 若 n 充分大，且 

R < I ( X;Y I X ,) + R 0 (15-255) 

则的误差概率任意小。联合式 （15-254) 与式 (15-255) 的约束，消去 Ro , 余下 

r < I ( X ； Y \ X,) + /(X l ； y) = /(X,x l ； y) (15-256) 

若想了解关于误差概率的详尽分析，读者可参看 Cover 与 EIGamal [127]。 □ 

可以证明，定理 15.7.2 关于下列类 a 的中继信道也 成立： 

1. 反退化中继信道，即 

p ( y , y \ I 工，工 1 ) = P(y I x , x x ) p ( y \ I : y ，^) ( lS -257) 

2. 带反馈的中继信道。 

3. 确定性中继信道 

y x = /(j,xi), y = g(x f xO (15-258) 

15.8 具有边信息的信源编码 


现在考虑一种特殊的分布式信源编码问题，即两个随机变 MX 与 y 分开编码，但仅需要将 
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X 恢复。如果容许用尺 2 比特描述 Y , 那么需要用来描述 X 的码率&是多少？如果 R 2 > 
H ( y ) JIJ y 可完美地描述，再由 Slepian - wolf 编码的结论， R , = H ( X \ Y ) 比特足够描述 X 了。 
从另一极端情形来看，若尺 2 = 0,我们必须在没有任何别的帮助下来描述 X ,因此，至少需要用 
尺比特来才能描述 X 。一般地， 用尺 2 = i ( y ; V ) 描述 Y 的一个逼近 V ，那么在已知边 
信息 V 的条件下，用 H ( X | SO 比特可以描述 X 。下边的定理与这个直观结论相一致。 

定理 15.8.1 设 （ X , y ) 〜 /) U ，： y )。 如果 y 以码率尺 2 编码， X 以码率编码，那么能以 
任意小的误差概率将 X 恢复当且仅当存在某个联合概率密度函数 p ( u )/> UI ： y )， 使得 

R x > H(X I U ) (15-259) 


— 编码器 


译码器 —X 


R 2 ^I(Y ； U) (15-260) 

其中 iwi < m +2。 

我们将定理证明分成两部分。首先证明定理的逆部分，即证明对任何具有小误差概率的编 
码方案，均可以找到满足定理所述的服从某个联合概率密度函数的随机变 M I ；。 

证明（逆 定理） :考 虑如图 15-32 所示的任意信源编码。信源编码有下列要素 组成： 两个映射 
A ( X ") 与 g n ( V "), 其中/„ 与心 的码率分别小于与 
尺 2 ,以及--个译码映射使得 

P ( t n) = Pr\h n (f n (X n ) t g n (Y rt ))^ )C\ < e 

(15-261) 

定义新的随机变与 T = g fl ( r ) 0 此时由 
于可从 S 与丁 中将; T 以小误差概率恢复，则由费诺不 
等式，我们有 

H(X" I S,T)<r 

于是 


缟码器 [ 




图 15-32 具有边信息的编码 


nR 2 %H(T) 

(w 

彡 /( V "; T ) 


(15-262) 

(15-263) 

(15-264) 


(d) 

= I]HY i iU i ) 

<•1 

其中 

( a ) 由心 的值域为 11,2, …， 2<| 得到， 

( b ) 由互信息的性质得到， 

( c ) 由链式法则以及 y , 独立于、，•••， Km , 从而，…， 1-0=0 得到, 

( d ) 当定义可以推出。 

对于尺 d 我们也有下面的系列不等式， 

urSh ( S ) 

(w 

> H(S I T ) 


(15-265) 

(15-266) 

(15-267) 


(15-268) 

(15-269) 


= H(S I T ) + H ( X n I S ， T ) 一 HiX ^ I S , T ) ( 15 - 270 ) 
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丨 D - /!€„ 

(15-271) 

(«0 

= H ( X n 1 T) - n£ n 

(15-272) 

•=Sh(X, I T’XvO ne „ 

• ■1 

(15-273) 

^EWX. 1 T，m - ne” 

(15-274) 

= Eh(x. i r.r- 1 )- ； z£ n 

»•! 

(15-275) 

(h) 士 

= ZjH ( X , I U .) - ne „ 

(15-276) 


其中 

( a ) 由 S 的值域为11,2,…,2<|得到, 

( b ) 由于加入条件使得熵变小的事实得到， 

( c ) 由费诺不等式得到， 

( d ) 由链式法则以及 S 为) C 的函数的事实得到， 

( e ) 由熵的链式法则得到， 

(0 由于加入条件使得熵变小的亊实， 

(g) 由于(微妙的）亊实 ：因为 X,并不含有； C — 1 不存在于公 _| 和丁中的信息，从而X,- 

— 构成一个马尔可夫链， 

( h ) 由 C ； 的定义得到。 

另外，由于 X ,中含有关于 L /, 的信息并不比 V ,含有的多，则 X .^ Y ^ U , 构成一个马尔可夫 


链。因此，我们有下面的不等式： 

05-277) 

n i-i 

(15-278) 

n i-i 

现在引进一个分时操作随机变 ft Q , 使得我们可将上述不等式改写为 

H(X Q \U Qt Q) (15-279) 

11 i-l 

尺 2 彡丄 ！]/( = *•) = UY q ;V q \Q) 05-280) 

n .*i 

由于 Q 独立于 y Q (即 Y , 的分布不依赖于 0, 我们有 

HY q ； V q I Q) = UY q ； Uq 9 Q)- I{Y q ； Q) = HY q ;U q ,Q) (15-281) 

其中知与仏的联合分布为定理中已知的 〆 : r ,： y )。 定义 U =( U q , Q),X = X q 以及 Y q ， 
我们便证明了对于低误差概率的任何编码方法，存在随机变量 U 使得 

R x ^H(X I U) (15-282) 

R 2 ^ UYiU) (15-283) 

至此，完成逆定理的证明。 口 


在我们继续给出该码率对的可达性的证明前，需要一个关于强典型性和马尔可夫链的新引理。 
回忆关于三个随机变量 X , y 与 2 T 的强典型性的定义。三个序列与'称为 e 强典型的，如果 
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七 NU ， b，c I x \ f , z n ) - p ( a , b 9 c )\< ^ n y n Z \ (15-284) 

特别地，这意味着 ( x ”， y 〉 与 ( y 1 ，'〉 都是联合强典型的。然而，反之不然。即，如果 （，， y 〉€ 
八：(” ) (义，丫)且(/，？）€>\:(” > (^,一般不存在(：1：”，，，？）€八： < ”〉（；^7,2)。但是，如果 
x — y —2 构成一个马尔可夫链，则该结论是成立的。我们将此叙述作为一个引理，但不证明， 

具体细节可参看 [53, 149]。 

引理 15.8.1 设 （ X , y , Z ) 构成马尔可夫链 X — Y — Z , 即 /> U ，： y , z ) = Mx ,： y )/)( 2 ：|： y )。 

如果给定条件 （/,/)€八广” > 0",20,有 X "〜1*1/>(4丨乂）， 那 么当” 充分’大时， PrKX ",/,^) 

i* I 

6 A ； ( fl ) ( X , y , Z )|> l-eo 

注释 如果 X "〜 ftp ( x , l ： y ,, Z ,), 则由强大数定律可知定理成立。 X 一 的马尔可夫性 

/•I 

是为了保证 X "〜 ( pubi ) 推出 X "〜 ( i / Ulu ) 成立。 

我们现在给&定理 15.8.1 中可达^证明的概述。 

证明（定理 15.8.1 中的可达性〉：固定 /> UI ： y )。 计箅 />( u )= l >(： y)/>U I ： y ) 。 

y 

码簿的 生成。生成2%个长度为 ri 的独立码字 U ( w 2 )， u ， 2 € ll ,2, …,2%|服从分布1^(«,)。 

1^1 

对每个 X ",依11,2，_"，2<1上的均匀分布独立随机产生下标6,从而将所有； T 序列装入个 
盒子中，用 13( f ) 表示装人盒子 i 的所有 X "序列构成的集合。 

编码。发送器 X 发送 X "落人的盒子下标“ 

发送器 Y 找出下标 s 使得 （ VWGWeA /^ dL ；)。 如果这样的 s 不止一个，则发送最 
小的。如果码簿中不存在这样的 UHs )， 那么发送5 = 1。 

译码。 接收器找寻惟一的；满足若不存在这样的|5^ 
X \ 或不止一个，则宣布出错。 

误 差概率分析。 各种误差来源 如下： 

1. 由信源产生的序列对 （ X ",^) 非典型。当 n 很大时，出现这种情形的概率很小。因此， 
不失一般性，我们可以将事件“信源产生一个特定典型序列”作为条件。 

2. 序列 V "是典型的，然而码薄中却不存在 L /"( s ) 与其为联合典型的。由 10.6 节的讨论知， 

这种情形的概率是很小的。当时，我们证明了如果有足够多的码字，即，如果 

R 2 > I ( Y ; U ) (15-285) 

那么我们非常有可能找到一个码字，与给定的信源序列是联合强典型的。 

3. 码字与/是联合典型的，但不与 . r ” 联合典型。由引理15.8.1，由于 X—U 
构成一个马尔可夫链，这种情形的槪率也很小。 

4. 如果存在另一典型的序列 X "€ B ( i ) 使得与 LT ( 5 ) 是联合典型的，也会得到误差。任何其他序 
列； C * 与 U " ⑴是联合典型的槪率小于因此，这种情形下的误差槪率有上界 

I ij (0 n A ； < n ) ( X ) I 2" n(,(X;t/) " 3e> < 2 n ( H ( X )+ t ) 2~ ,, R '2" n(,(XiL/) " 3,> (15-286) 

当尺 AHUIL 7) 时，该上界趋向于0。 

因此，实际的信源序列 X 7 •与 U "( 5 ) 是联合典型的，而同一盒子中再没有别的典型序列能够 
与 LT ( s ) 联合典型，这是极有可能的。我们可适当地选取《与£使得误差概率任意小。这就完成 
了可达性的证明。 n 

15.9 具有边信息的率失真 

我们已经知道，在容许失真 D 的情况下，为了描述 X ，只需要尺 （ D ) 比特就足够了。现在的 



问题是，如果已知边信息 y 时，需要多少比特？ 

首先给出一些定义。设 (X,，y,〉 为 i.i.d.~/)U,：y), 按如图 15-33 所示编码。 

定义具有边信息 （side information) 的芈失真函数 Ky 
(D) 定义为当译码器获得边信息 Y 时，为使失真率不 
超过 D 所需要的最小码率。精确地讲， R Y ( D ) 为满& 

如下条件的所有码率的下确界，即如果存在映射 
—fl,2, …,2,和心:；^><11,2,".,2勹—方"满足 m 15-33 具有边信息的率失真 

lim^ip£a(X n ,g n (Y",i >t (X n )))< D. (15-287) 

显由于边信息至少会有些帮助，故我们有/^(0><只（0)。对于零失真情形，这就是 
Slepian-Wolf 问题。此时，需要 f/UlY) 比特。因此， R y (0) = H(X I V ) 0 我们希望确定出整个 
曲线 R y ( D ) 9 关于这点的结论可表述为下面的定理。 

定理15.9.1(具有边信息的車失真（\¥^1"和2^)) 如果 U, Y) 为 i.i.d •〜 Mu) 且 

d ( x \ i ") =丄 ^ c/U A) 已知，那么具有边信息的率失真函數为 

n «-i 

Rv ( D ) = minmin(/(X; W) - I ( Y ; W )) (15-288) 

〆 •，:>/ 

其中最小值取自所有函数 / : ；VxW^ 方以及所有条件概牟密度 A 数〆 + 它 
们满足 

^2 p ( x , y ) p(w I x ) d ( x t f ( y t w )) < D (15-289) 

定理中的函数/对应码&射，它将 x 符号的编码形式与边信息 y 映射到檐出字母表。其 
中的敁小值取自满足关于联合分布的期望失真不超过 o 的 w 上的所有条件分布以及所有函数/。 
在考虑式 （15-288) 中定义的函数 /? y (D) 的一些性质后，我们将首先证明定义逆定理部分。 
引理 15.9.1 式 （15-288) 中定义 的具有边信息的芈失真函數 R Y ( D ) 为 D 的非增凸函數。 
证明： K y (D) 的单调性直接由随后的亊实 推出： K y (D) 的定义中取敢小值的区域随着 D 的增大 
而增大。与不存在边信息时的率失真一样，可以预期 /MW 是凸的。但是，由于在式 (15-288) 中 
(D) 的定义有两次取最小值而不是一次，这使得凸性的证明变得更加复杂。我们仅给出证明的要点。 

设 Dl 与 D 2 为失真的两个取值，且设 W,， 乃以及 W 2 , / 2 分别为 R y (Di) 与 K y (D 2 ) 的定 
义中达到最小值时对应的随机 变暈与 函数。设 Q 为独立于欠，^,\^与\^ 2 的随机变 ft , 其以概 
率 A 取值1,以概率 1- A 取值2。 

定义 w = ( q , w q ), 并令 /( w,y) = / Q (w Q ，y)。 特别地， /(m:/〆％,y) 的概率 


为 a, 而 /(vv,y) = / 2 (w 2 ,y) 的槪率为 1 -a, 于是失真变为 

D= Ed(X f X) (15-290) 

= kEd(X 9 f x (W l9 Y)) + (1- X)Ed(X,f 2 (W 29 Y)) (15-291) 

=AD, + (1 - A)D 2 (15-292) 

而式 (15-288) 变为 

I(W;X)- I(W ； Y) = H(X) - H(X I W) - H(Y) + H(Y \ W) (15-293) 

= H(X) - H(X I W g ,Q)-H(y) + H(y I W q ,Q) (15-294) 

=H(X) - XH(X I - (1 - A)H(X I W 2 ) 

-H(Y) + AH(y I W,) + (l-A)H(y I W 2 ) 05-295) 


=A(J(W,,X)- /(W l ； y» + (1 - A)(/(W 2 ,X) - I(W 2 i Y)) 
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从而 

R y (D)= min (I(U;X) - I(UiY)) (15-297) 

UiEd^D 

< I(W ； X) - UW ； Y) (15-298 ) 画 

= X(I(W l9 X)- HW l ； Y)) + (1 - X)(I(W 2 ,X) - I(W 2 ； Y)) 

= XRyiD,) + (1 - X)R y (D 2 ) (15-299) 

这就证明了尺 y ( D ) 的凸性。 □ 

我们现在来证明条件率失真定理的逆定理。 

证明（定理 15.9.1 的逆定理 h 考虑具有边信息的任意率失真码。令编码函数为 
| 1 ， 2 ,…, 2 叫，译码函数为 各:; V ” x | l , 2 , …, 2 ，—如 0 令仏:3^><11，2，〜,2，—方为译码函数产 
生的第:•个字符，而了=/„(；0表示 X "的编码 o 我们需要证明，如果 


则只 >/? y (D)。 我们有下面的系列不 等式： 

nR^H(T) (15-300) 

%H(T I V") (15-301) 

^ /(X"；T I V") (15-302) 

=£/(X,；T I r.X*- 1 ) (15-303) 

i -1 

=Swx, I Y",^- 1 ) - H(X, I T f y",X , - 1 ) (15-304) 

<■1 

= Eh(x, i y.) - mx. I : r.r'mpn ( 15 - 305 ) 

卜 1 

^Smx, I y,)-H(X, I T t Y- l 9 Y it Y： +l ) (15-306) 

rf -1 

= EH(X t I y,)-H(X, I W,,^) (15-307) 

• *1 

^t.UXr.w, 1 y f ) (15-308 ) 画 

i-l 

=Smw,. I y,)-H(W ( . (15-309) 

i -1 

=E H( W, I Y,)-//(W, I X,) (15-310) 

• *1 

= 2h(W,) - H(w,. I X,) - H(W.) + H(W, I y.) (15-311) 

• -1 

=E/(W,;X,)-/(W l ； y f ) (15-312) 

• «l 

^t^RY^EdiX^gjW^Y,))) (15-313) 

= ”丄 (15-314) 

n i=l 

(士 ’〆„(%’y,))) (15-315) 
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% nR Y { D ) (15-316) 

其中 

( a ) 由了的值域为11，2，*",2,得到， 

( b ) 由于加人条件使熵减小的事实得到， 

• ( c ) 由互信息的链式法则得到， 

( d ) 有以下事实 推出： 给定 y , 时， x , 独立于 y 和 x 的过去与未来， 

( e ) 由于加入条件熵减小的事实得到， 

(0 直接由定义推出， 

( g ) 由互信息的定义得到， 

( H ) Y , 仪依赖于 且条件独立于 t 与 y 的过去与将来，因此， w ,— X ,— y , 构成一个马尔 
可夫链， 

(») 由于兄=心(了, Y ") 会 〆 于是 I ( W r % X i )- UW r , Y i )> min I ( W ； X ) 

W.EdiX.^D,) 

-/( w ; y ) = iM A ), 从而可由（信息）条件率失真函数的定义得到， 

( j ) 由 Jensen 不等式与条件率失真函数的凸性(引理 15.9.1) 得到， 

( k ) 由 D = e [^ E ^( X ,， X )] 的定义得到。 □ 

容易看出该逆定理^无边信息时率失真的逆定理 （10. 4节）的相似性。可达性的证明也与利 
用强典型性证明率失真定理相似。区别在 T , 我们将这些码字分人多个盒子中，发送盒子的下 
标，而不是发送与信源联合典型的码字的下标。若每个盒子中码字的数 tt 充分小，那么接收器可 
以利用边信息将盒子中特定的码字分离出来。因此，我们又将随机装盒子与率失真编码相结合 
找出联合典型再生码宇。我们将给出证明的要点如下。 

证明 （定理 15.9.1 中的可达性固定 />( 切 lor ) 与函数/(加，夕），计算 

2 p ( r ) p(iv I r ) 

Jt 

码簿的生成。 令^ =/( X ; U 0 + e , 生成 2必 个 i . i . d . 码字 W r '( s )-]\ p ( w i ), 它们的下标 s 

* ■篇 

eil ， 2 , …, 2 术|。令 R 2 =/ U ; W )- J ( Y;HO + 5 e 。 随机地将下标 11 , 2 ,…, 2 <|依盒子上 
的均匀分布分配到个盒子中的其中一个。记 B («) 为第 f •个盒子中的下标集合，那么每个盒 
子中大约有2” (/ ^~个下标。 

编码。 对给定的信源序列 X ”， 编码器搜索满足的码字 W ^ s )。 若不存 
在这样的码字编码器规定 s = l 。 若存在不止一个这样的编码器采用最小的 s 。 编码器发 
送 5 所在的盒子的下标 I 。 

译码。 译码器找出满足与 ( W "( s ), r )6 A / u ) 的码字 WT ( s ) o 若它找到惟一的 s , 则计 
算 V ,其中父 ,=/( W ,， H 若没有找到这样的5,或者找到不止一个 5 ,则规定其中 f 为 

^中的一个任意序列，并不需要在乎使用了哪个默认序列，我们将证明这类事件的概率很小。 

误差概率的分析。 与前面类似，存在多种产生误差的 事件： 

1. 序列对 ( X \ V " 作 A / u > 。 由弱大数定律知，71充分大时，这类事件的概率是很小的。 

2. 序列； T * 是典型的，但并不存在满足（ X "，的〜类似宇失真定理中的证 
明，当 

> I ( W ； X ) (15-317) 

时，这类事件的概率很小 C 
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3. 序列对但是 A ； ln \ 即码字与 V "序列不是联合典 
型的。由马尔可夫引理(引理 15.8.1) 得知，当 rz 充分大时，这类事件的概率很小。 

4. 在相同的盒子中，存在另一/,使得由于随机选取的 W 71 与 V " 

是联合典型的概率 &2 i /( Y ; w 0 , 同一盒子中还有与 V 构成典型的概率不超过码宇数 
量乘以联合典型的概率，即 

Pr( 3 5 # € B(«):(W"(s ，）， Y") € A: ⑹） < 之 ” 0 ^ 々 -"(“ w,y> _ 30 (15-318) 

由于抝-尺 2 </( y;HO - 3 e , 其趋向于0。 

5. 若下标 5 译码正确，则由第1条，珂假设 

此，由马尔可夫引理，有经验联合分布与初始的分布/>(工， 

: y )/> (说 U ) 接近。因此 ,（ X ", X ”） 必有一个接近于达到失真 D 的分布的联合分布。 

因此，译码器将以很髙的槪率生成又”，使得； T 与 X ”间的失真接近于必。这就完成了定理 
的证明。 □ 

对于详尽的证明过程，读者可参看 Ziv [574]。 经过对压缩分布式数据的各种情形的探讨，人 
们可能以为该问题已经得到了完全的解决。但遗憾的是，事实并非如此。对所有以上的问题的 
一个直接的一般化问题是如图 15-34 所示的相关信源的率失真问题。这本质上是 X 与 Y 中都存 
在失真时的 Slepian - Wolf 问题。容易看出，卜.面考虑的三个分布式信源编码问题都是该问题的特 
殊悄形。然而，与前面不同，该问题还没有得到完全的解决，一般情形的率失真区域还不知道。 [586] 


X H 



(X-.Y") 


15-34 两个相关信源的率失 A : 


15.10 一般多终端网络 


作为本章的总结，我们考虑一般情形，即具有多个发送器与多个接收器的多终端网络，并导 


出这样的网络系统中信息传送的玎达码率的一些界限。如 
图 15-35 所示的一般多终端网络。在本节中，上标表示节 
点的标号，下标表示时间标号。假设有 m 个节点，节点 
有对应的传送变 fix ⑴与接 收变贵 y ( i > 。 节点/以码率 
K ( W 向节点 j 发送信息。再假设所有由节点/传送到节点） 
的消息都是独立的，且在各自的取值空间11，2,…， 
上服从均勻分布。 

信道可由信道转移函数 />(： y ⑴，…， lx ⑴，…， 
z ( m > ) 表达，它是在已知输人的条件下，输出结果的条件槪 
率密度函数。该概率转移函数刻画网络中噪声与干扰的影 



响。假设信道是无记忆的，即任何瞬时时刻的输出仅依赖 W 15-35 —般多终端网络 

当时的输入，而与以往的输人条件独立。 
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对应于每个传送与接收器节点对是消息 W ( WGIl ,2，〜，2& w > |。 在节点/处的输入字符 
久 ( *>不仅依赖于消息 ，…， mi , 也依赖于节点 i 过去接收到的字符 y ( n 。 因此，分组 
长度为 n 的编码方案由每个节点都对应着一列的编码和译码函数组成： 

• 编码器。 = 编码器将消息 

与过去接收到的字符映射为时刻 a 被传输的字符 xP 。 

• 译码器。…， Y („ 0 ,\ V( in ，…， W (〜〉 ，j = l ，2，”.， m 。 节点£处的译码器 j 将 
根据每组传输中接收到的字符与自身的传输信息，估计出从节点 ）(）= 1,2,…， m ) 传送给 
它的消息。 

与每对节点相伴是一个码率与一个相应的误差槪率，这种消息是不能被正确译码的。 

P ^ )(，>) = Pr ( ^ W Uj) ) (15-319) 

其中 P ( / )， f ， 的定义基于假设所有的消息相互独立，且服从各自取值空间上的均匀分布。 

如果对所有的；，_;€1丨,2,"_,;«|，存在分组长度为^1的编码器与译码器，使得当 n — oo 时， 

均有0,则称码率集1尺 ( 0|是可达的。利用上述定义来推导出任意多终端网络中的信息 
流的上界。将所有节点集分成集合 S 与其补集 S % 现在来估计从 S 中节点 到没中 节点的信息流 
码率。见参考文献[514]。 

定理 15.10.1 如果信息码率集是可达的，則存在一个联合概率分布 p ( x (l \ x ⑵ ，…， 


x {m) ) t 使得对任意的 SC |1,2,-, ml , 均有 

E R w < /(X (S) ； y (S<) I X (s<) ) (15-320) 

i€S.i€S* 

因此，穿过割集的信息流的总码牟由条件互信息所界定。 

证明：与多接入信道的逆定理的证明相同。设 I 是从5至5< 的连 
接构成的集合，记7-为网络中所有其他的连接。则 

n E R ih) (15-321) 

•€s.>es' 

= S H(w ( *») (15-322) 

»€s.>es' 

(15-323) 

^H(W m I W iT，) ) (15-324) 

=/(W (r, ； yi s ， , ,-,yi s，) I W (T，) ) (15-325) 

+ H(W (T) I Y \ s '\- 9 Y [ st \ W (T，) ) (15-326) 

<KW ( ” ； Vl s ‘ ） ， ." ， n S,) l ^ r) )^nE n (15-327) 

= £/( ^ T > ； yi s， >l y! s ， ) ,-,yi! ； ) ,W (T， >) + n£ ll (15-328) 

= Eh ( Y ( k st) I 

- H ( Y ( k sf) I Y [ s ， \- t Y [ s [\ W ( T ， \ W m ) + ns n (15-329) 

* = 1 


一 H(Yi s，> I yS st) ,-,yi? ； ) ,W (TC) ,W (T) ,Xi s) ,Xi s< >) + ne n (15-330) 
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<l ； H(yi s，) I Xi s ) ) - H(Yi s，) I Xi s ， ) ,Xi s) ) + n£ n (15-331) 

*-! 

= 2/(Xi s) ;Yi s，) I Xi s，) ) + ne n (15-332) 

I X^\Q = k)-*- ne n (15-333) 

n *-i 

= «/(X ( Q s) ； y ( Q s，) I X ( q s<) ,Q) + ne n (15-334) 

=I X^ ^Q) - H(Y^ S<) I X^\X^\Q)) + ne n (15-335) 
<n(H(y^ C) I X^ s<) ) - H(y^ s，) I X^ s) ,X ( q s ， ) ,Q)) + «e n (15-336) 

= n(H(yb S，) I Xif* ) )-H(y^ s，) I X^ S) f X^ s，) )) + n£„ (15-337) 

= n!(X ( Q s) ;Y ( Q se) I X ( Q S，) ) + ne B (15-338) 


其中 

( a ) 由于消息服从各自的取值空间 11, 2, …， 上的均匀分布， 

( b ) 由定义 W ⑺ =| W ⑻: i € S ,>€ SM , 从而消息相互独立， 

( c ) 由于关于了和的消息是相互独立的， 

( d ) 因为消息可由 Y ( s ) 与译码得出，于是由费诺不等式可得， 

( e ) 由互信息的链式法则得到， 

(0 由互信息的定义得到， 

(g) 由于 Xi s ‘> 为过去接收到的字符与消息的函 数， 以及加入条件使得第二项减小， 

( h ) 由于仅依赖于当前的输入字符 Xi s > 与 Xi 5 ^， 

( i ) 只要引人一个服从 II , 2, …， nl 上均匀分布的分时随机变 tt Q 就可得到， 

( j ) 由互信息的定义得到， 

( k ) 由于加人条件使熵减小， 

(l) 由 y ( Q s ] 仅依赖于输人 Xf 与且条件独立于 Q 得到。 

因此，存在满足定理中不等式的某个联合分布的随 机变量 X ⑸与 x (sr >o □ 

上述定理有一个简单的最 大流最 小割解释。考虑网络中任何一个分界线的一侧与另一侧，穿 
过该分界线的信息流的码率不超过在给定另一侧的输入条件下，一侧的输人与另一侧的输出之 
间的条件互信息。 

如果定理中不等式的等号能够成立，那么网络中的信息流问题就可以得到解决。但遗憾的 
是，即使对一些简单的信道，这些不等式中的等号都不会成立。我们现在使用前面已经考虑过的 
几个信道来检验这些不等式。 

• 多接入信道。 多接人信道是由多个檎入节点与一个输出节点构成的网络。对于只有两个 
用户的多接人信道情形，定理 15.10.1 中的不等式可以简化为对于某个联合分布 
P ( 工 i, x 2 )p(y\x x , x 2 ), 

i ? 1 </( X 1 ；y I X 2 ) (15-339) 

R 2 < I ( X 2 ; Y \ X ,) (15-340) 

R { + R 2 ^ UX lf X 2 ; Y ) 05-341) 

若限定输人分布为乘积分布，并且取凸包(定理 15.3.1), 那么这些不等式刻画的区域与 
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容量区域是-致的。 

• 中继信道。对于中继信道，根据如图 15-36 所示选取不同的子集，我们会获得一些不等 
式，它们给出了定理 15.7.1 中的上界。因此 

c< ^ip mini/(x,x l ； y),/(x ； y,y I i x,)i ( 15 - 342 ) 

该上界为物理退化中继信道 ^ 带反馈的中继信道 [127] 的容量。 

为了完善对一般网络的讨论，我们现在来提及单用户信道的两个尚未应用到多用户信道中 
的特征。 

• 信源信道分离定理 3 在 7. 13节讨论了信源信道分离定理，它表明了可以无噪声地在信道 
中传输信源当且仅当熵率小于信道容量。这使我们可以仅用单个数字(熵率)描述信源和 
用单个数字(容 置) 来描述信道。多用户情形又如何？我们期望一个分布式信源可通过信 
道传输当且仅当信源的无噪声编码的码率区域包含于信道的容》区域内。为了明确起 
见，考虑在一个多接人信道上传输分布式信源的传输问题，如图 15-37 所示。将 Slepian- 
Wdf 编码的结果与多接人信 道容* 的结论结合在一起，可以证明，如果存在某个分布 
p ( q ) p { xx \ q ) p ( xi \ q ) p ( y \ xx % xi )^ 使得 

H(a I V)< /(X,；y I X 2 ， Q ) (15-343) 

H(V/l/)< /(X 2 ；y I X Xt Q ) (15-344) 

H ( U t VXUX lt X 2 ;Y \ Q ) (15-345) 



图】 5-36 中继倍迫 m 15-37 相关信®在多接人信道 t 的传输 


成立，那么可通过信道传输信源并且以很小的误差槪率将其恢复。这个条件等价于说信 
源的 Sl C pian-Wdf 码率区域与多接人信道的容燉区域有非空的交。 

但此条件是否必要？答案是否定的，这可用一个简单的例子得到说明。考虑例 15.4.2 中 
的信源在二元擦除多接人信道(例 15.3.3) 上的传输问題。易知 Sepian-Wolf 区域 与容量 区域不 
相交，但是很容易设计出一个编码方案，使得信源可以在该信道 t 进行传输。只要令X, = U, 
X 2 =V, 那么由 Y 的值我们会无误差地知道(以，V)。因此，条件 (15-345) 不是必要的。 

信源信道分离定理之所以对于多接人信道情形不成立，其原因在于多接入信道的容 
ft 随着信道输入间的相关性增加而增加。因此，要使容量最大化，需要保留信道输入间 
的相关性。然而 Slepian-Wolf 编码却剔除这个相关性。在保留相关性思想的基础上， 
Cover etal.[129] 提出了相关信源使用多接人信道传输的珂达区域。 Han 与 G>sta[273] 对 
相关信源使用广播信道传输也提出了-•个类似的区域。 

• 带反馈的容量 区域。定理 7.12.1 证明反馈并不能增加单用户离散无记忆信道的容贵。对 
于有记忆信道，情况 则不- •样，反馈可以使发送器预测到哚声的一些信息并里有效地抗 
击噪声，从而增加容量。 

多用户情形又如何？相当令人吃惊，即使信道是无记忆的，反馈也确能增加多用户信 




道的容量区域。这首先被 Gaaxder 与 Wolf [220] 证明，他们说明了反馈是如何有助于增加二 
元擦除多接入信道的容量。简要地说，从接收器到两个发送器的反馈充当了两个发送器间 
的分离信道的角色。发送器 SI 以先于接收器将相互之间传输的信息译码。然后，它们间可 
相互协作以解决接收端的不确定性，从而以具有比非协作容贵更高的协作容 量发送 信息。 
利用该方案， Cbver 与 Leung [133] 给出了具有反馈的多接人信道的 SI 达区域。 WUlems [557] 
证明了该区域包括了二元擦除多接人信道在内的一类多接入信道的容童。 CWv [410] 给 
出了两个用户的高斯多接人信道的容量区域 3 带反馈多接人信道的容量区域的求解问题与 
具有公共输出的双程信道的容量问题存在着紧密的联系。 

关于网络信息流还没有统一的理论。但是毫无疑问，一个完整的通信网络理论将会对通信 
与计算理论产生广泛的贡献。 
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第 J 5 章 


中继信道物理退化中继信道/的容童 C 为 

C = supmin|/(X. X, 5 V), /(X; V, I X,)| (15-359) 

其中，上确界取自上的所有联合分布。 

具有边倍息的倌源编码设 U, y) 〜 pu,/。 若以码率/? 2 对 y 进行编码，以 码率心 
对 x 进行编码•可将 x 以任意小的误差概率恢复当 a 仅当存在某个满足 X- 1/的概率分 
布〆 《y ，“）， 使得 

R^H(X I U) 05-360) 

5( 人 s R 2 >HY ； U) (15-361) 

具有边倍息的率失真设(X， Y )- pU , y ) o 具有边信息的率失真函数定义为 

R y (D) = min min /(X; W) - I(Y; W) (15-362) 

ry^-x 

其中，最小值取自所有满足如下不等式的函数/以及条件分布 P (比 U), IWKI^I + l* 

^ i y ,y ,p(x,y)p(xv I x)d(x 9 f(y,w)) < D : K : (15-363) 

* ^ y 

习题 

15.1 ? 接入信道的 t 办作容 ♦ 

/ 

… V ". •八 

\ 

( a ) 假定&和 X 2 都是下标€ 11, I 和 W 2 € 11, I 的接入。于是码字 X ,( W lf 

w 2 ) 和 x 2 ( w 2 ) 都依赖于两类下标。求容 M 区域。 

Lb ) 针对二元擦除多接人信道 y = x I + x 2 , x , eio , 11 ,计算这个容世区域，并与非协作 
区域情形作比较。 

多接入信道的容 I 。求出 to 卜•的每个多接人信迫的容飧 区域 ： 

( a ) 可加模2錢人信 it , 即 

u ), 丨 1， 

( b ) 乘法多接入倍道，即 Xie « 1.11. X： e 

卜丨 ， "，y = . VX 2 。 

?接入信道的容*区城的割篥衫修对丨：多接 

人信道,我们知道对独立的\和七，如梁 

R { < /( X ,; V I X 2 ) (15-364) 

R 2 < /( X 2 ； V X ,) (15-365) 

K , -f R ： < /( X ,. X 2 ; V ) (15-366) 

那么《仏，仏）是蚵达的-证明，对 raft 的入！ 

和 . X 2 ，冇 /( X ,; V X ：)- /(. V ,； V . A ：) 



15.2 
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解释信息的界估计分别可以作为关于穿越割集 S ,， S 2 和 S 3 的网络流的码率的界。 

15.4 高斯多接入信道的容量。对于 AWGN 多接人信道，利用典型序列方法 证明： 任何一对可 
• 达的码率(仏，只 2 )必满足 

i ^ i < yIog(l + §) (15-367) 

K 2 < ylog(l + §) (15-368) 

R x + R 2 < ylog(l + (15-369) 圓 

正如单用户高斯信道的证明是离散单用户信道的证明的推广，这里的证明也是离散多接 
人信道情形的推广。 

15.5 高斯多接入信道的逆定理。通过推广码字的功率限制离散情形的逆定理，由此证明高斯多 
接人信道的逆定理。 

15.6 非寻常的多接入信道。考虑如下的多接入 信道： Yi = Y 2 = ； V = KUI 。 如果 ( XhAXO . O ), 

则 y = o 0 若 dxxo . i ) •则 v=io iaM ( x l 9 x 2 ) = ( uo ) 9 那么 y=u 而如果 （ x " 

x 2 ) = ( i , i ), 则 y = o 和 y = i 的概率均为 

( a ) 证明码率二元组 （1,0) 和 (0,1) 都是可达的。 

( b ) 证明对于任意非退化的分布 p ( x x ) pU 2 ), 均有 UX l 9 X 2 ; Y)<\o 

( c ) 讨论： 存在该多接人信道的容撖区域中的点，它们只能通过分时操作达到。也就是说， 

对于任意的乘积分布 pu x ) pu 2 ), 存在可达的码率对（尺1,尺 2) 落在信道的容缺区域 
内，但并不在如下所定义的区 域中： 

R l ^ I ( X l ; Y \ X 2 ) (15-370) 

K 2 < /( X 2 ；y I X ,) . (15-371) 

R l + R 2 </(X lf X 2 ； y) (15-372) 

因此，凸化操作严格地扩大了容*区域。该信道是由 Csiszdr 和 K 6 m er [149]， 以及 
Bierbaum 和 Wallmeier [59] 独立提出的。 

15.7 广播信道的容量区域的凸性。设 CQR 2 为广播信道的所有口了达码率对 R =( 尺1,尺 2) 形成 
的容 S 区域。利用分时操作讨论证明 C 是一个凸集。具体地讲，就是证明：当 R ⑴和 R ⑵ 

均为可达的，那么对于 0< A <1， AR ⑴ + (1- A ) R ⑵ 也是可达的。 

15.8 确定性相关信源的 S 1 印 ian - Wolf 码车区域。找出并简述关于信源（ X , Y ) 的同步数据压缩 

的 Slepian - Wolf 码率区域，其中 : y =/ U ) 为关于 x 的某个确定性函数。 ^ 

15.9 Slepian-Wolf 码率区域。设 X ,为 i . i . d 〜 Bemoulli ( p ) , Z , 为 i . i . d 〜 Bemoulli ( r > ，且 Z 独立 
于 X ，并令 Y = X ©2 Z (模 2 和）。假定以码率尺，描述 X ，以码率心描述 Y ， 允许以误差概 
率趋于0使得 X 和 Y 恢复的码率区域是什么？ 

15.10 广播信道的容量仅依赖于条件边际分布。考虑一般的广播信道（ X ， Yi >< v 2 » p ( yi ^ yi \ 
x )) o 证明容*区域仅依赖于 〆 : yiU ) 和 MaU 〉。 为证明该命题， U I ■以对任意给定的 
((2 哟，2吶），”)码，令 


P [ n) = Wjl 

P [ n) = P \ W 2 ( Y 2 )^ W 2 \ 

P {h) = Pi ( TV 1 , W 2 )#( W 1 , W 2 )| 


(15-373) 

(15-374) 

(15-375) 


然后证明 maxi 尸卜， P〗”>| <尸("> < +朽”> 

由此可通过简单的讨论得到命题的结论 。注： 误差槪率 P U> 的确依赖于条件联合分布 
/>( 力，: y 2 li)， 但是否〆”>会趋于零(以码率(&，尺 2 >)并不(除非条件边际分布 p ( yi \ x) t 

MaU )。 

15.11 退化广播信道的逆定理。 如下不等式链可以证明退化离散无记忆广播信道的逆定理。给 
出每个有标示字母的不等式成立的理由。 

为证明退化广播信道容量逆定理的具体 设置： 

- X "( vv lf w 2 )- Y1 - y ; 

•编码为 

/” ： 2 说 ， x 

•译码为 

n „ :; yr — 2 成 • 人 : y n 2 — 2^ 

令 “-( Wnvr 1 )， 则有 

^ 2 < f to KW 2 ； YV ( 15 - 376 ) 

网 = i ]/( W 2 ； y 2l - I Yi 1 ) ( 15 - 377 ) 

卜1 

= Z ( H ( y 2l I W 29 Y i £ 1 )) ( 15 - 378 ) 

9 

< XI ( H ( y 2 l )- H ( y 2| . I W 29 Y i { l 9 Y i C 1 )) ( 15 - 379 ) 

< H ( H ( y 2 l )- H ( y 2l I w 2f y i r , )) ( 15 - 380 ) 

i 


<ijHU,iY 2i ) (15-381) 

逆定理的证明续。 给出如有标示字母的不等式成立的 理由： 

nR^^UW^n) (15-382) 

<HW l ； Yl 9 W 2 ) (15-383) 

I W 2 ) (15-384) 

I Y\- l ,W 2 ) (15-385) 

i-l 

^^/(X.sYn I V t ) (15-386) 

• ••雇 

下面令 （3 为服从 Pr ( Q =0 = l / w ,，= l ,2, …，”的分时随机变量。那么，关子分布 P( q ) 

p(u\q)p(x\u yq)p(y\,yi\^) ^ 判断下列不等式： 

尺 i< /(X Q ;V IQ I U q ， Q) (15-387) 

R 2 <HU Q ;Y 2Q \ Q) (15-388) 


适当的定义 L /， 关于某个联合分布 p(u)p(x\u)p(y l9 y 2 \x) t 该区域等于下面区域的凸 
闭包： 


m 


r.^ux ； y, I u) 

R 2 ^I(U;Y 2 ) 


(15-389) 

(15-390) 
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15.12 容量区域的交点 

( a ) 对于退化的广播信道求出容量区域边界分别在轴和尺 2 轴上的交 
点 a 和6。 
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15.14 带未知参數的信道。假设给定一个参数为/>的二元对称信道，则该信道容嫩为 C = 1 - 
H(p ) 0 现在我们把问题稍微改动一下。假定接收器仅知道/即/> =仏或 
/> = p 2 ，其中/^和仏是两个给定的 实数。 然而，发送器知道参数/>的确定值。设计两 
个编码，一个用于/> = &的悄形，另一个用于/>=/> 2 的情形，使得当 P =/ M 时，发送器 
到接收器的信息传输码率而当/> = /> 2 时，码率 & C (/> 2 )。 （提 示： 在不影响渐 
近码率的前提下，设计一种使接收器能够得到 P 值的方法。给码字前面加上一些由丨组 
成的前缀序列躭可以实现了。） 

15.15 双程信道。 考虑如图 15-6 所示的双程信道，其中输出 A 和 h 仅依赖于当前的输人& 
和 X 20 

( a ) 利用针对两个发送器的独立编码方案，证明对于某个乘积分布 pLr x ) p ( x 2 ) p ( y { ,yi 

U ,, x 2 ), 满足下面条件的码率区域是可 达的： 

R x < /(X, ； y 2 I X 2 ) (15-391) 

R 2 < HX 2 ； Y l \ X ,) (15-392) 

( b ) 证明： 对于双程信道，其误差槪率可以是任意小的任何一个编码的码率必定存在某 

个乘积分布 p ( x y , xi ) p ( yx ， y 2 \ x X yX 2 ), 使得 

R l <HX l ； Y 2 I X 2 ) (15-393) 

R z < /(X 2 ； y, I X,) (15-394) 

关于双程信道的容檄的内部界和外部界的概念是由香农 [ 486 ] 给出的。他还证明广在二 
元乘法信道10,11，的情形，容量区域的内部界和 
外部界不重合。但对于双程信道的容量区域情形，仍然是一个未解决的问题。 

15.16 多接入信道。多接人信道的输出 V = X 1 + « n ( X 2 ), 其中 X 〗和 X 2 都是实数而且 

P ,, £( X 2 2 )< P 2 , sgn ( x )= 
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*15* 


注意，此信道中有干扰但没有噪声 3 

(a) 找出容量区域。 

602 ] (b) 给出一种能达到此容量区域的编码方案。 

15.17 S1 印 ian-Wolf 定理。设（X, Y) 有联合概率分布函数 


户（工， 

- ■ - " -- 

1 

2 

3 

1 

Q 

P 

P 

2 


a 

P 

3 


p 

Q 


其中- f 。 （注 .•这 是联合而非条件概率分布函数。） 

(a) 找出此信源的 Slepian-Wolf 码率区域。 

(b) 用 a 来表示 Pr|X=Yio 

(c) 如果 a = l/0, 码率区域是多少？ 

( d ) 如果 a = 码率区域是多少？ 

15.18 平方信道。 F 面多接入信道的容量有多大？ X/ 卜 1,0, II, x 2 e 卜】 ， 0,1|, y=x? + 

(a) 找出容量区域。 

(b) 描述 />•(&)* (:r 2 ) 达到容请区域的边界的某点的情形。 

15.19 Slepian-Wolf 定理。两个发送器分别知道随机变 M 和[； 2 。随机变 «( A , L/ 2 ) 有如下 

的联合 分布： 



其中 a + / 3 + y = l 。 找出一个公共接收器可以对这两个随机变 M 可雒地译码的码率 
_ R 2 ) 的区域。 

15.20 多接入。 

( a ) 找出多接人信道其中: v / 12 , 4 |, x 2 eii , 21 ) 的容*区域。 

( b ) 假设的值域是 U ， 21 ,容世区域会减小吗？为什么？ 

15 . 21 广播信道。考虑下面的退化广播信道。 

( a ) 信道 X - Y ! 的容量是多大？ 

( b ) 信道 X — 匕的容量是多大？ 

( c ) 此广播信道所有（尺 1 ，尺 2 )可达的容 M 区域是什 

么？简单勾画出来。 ^ 

15.22 立体声系统 3 对于一个普通的接收者来说，左耳和 i 
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右耳信号的总和与差别是分别被压缩的。设 ZiSBemoullKpi )， Z 2 为 Bernoulli (/> 2 )，假 
设心和心是相互独立的。令 + 7=4-22。那么， 

( a ) (尺卜尺 2 )可达时的 SI 印 ian - Wolf 码率区域是什么？ [604 

( b ) 与 （ K Z| ， 尺 22 )的码率区域相比是大还是小？为什么？ 



(A, y> 



这是做这部分的一种简单方法 

15.23 乘法多接入信道。找出并描述下面的乘法多接入信道的容量 区域： 

其中 A € lO ， ll ， X 2 € ll ，2,3|， y = X , X 2o 

15.24 分 布式数据压缩 。令 A , Z 2 , Z 3 为独立的 Bernoulli (/>) o 找出描述 Ui , X 2 , X 3 ) 的 
SI 印 ian - Wolf 码率区域，其中 X , = Z ,, X 2 = Z , + 2 2f X 3 = 々 + + Z 3 。 




15.25 无嗓声多接入信道。 考虑下面有两个二进 制_人久1,久 2 6 10,1|和输出7=(：^，\ 2 )的 
多接入信道。 

( a ) 找出容 M 区域。注意，每个发送器以信道容*传送。 

( b ) 现在考虑协作容最区域， R 2 >0 t R x + R 2 <maxHX lt X 2 ;Y)o 证明吞吐率 

+ 不增加但容量区域增加。 

15.26 无限带宽多接入 信道。 对于具有无限带宽的高斯多接入信道，求其容最区域。证明所有 
用户都能按照各自的容贵需求发送（即，无限带宽消除了相互干扰）。 

15.27 多 接入识别。 令 C ( x ) = ^ log(l + x ) 是信噪比为: r 的髙斯信道的信道容量。证明 

喵 H 為)=没） 

这表明两个独立用户可以像他们已经各自获得了授权那样发送信息。 

15.28 频 分多址 （ FDMA )。 求出吞吐率 

Ri + 尺 2 = ^i»og(i + 為 ;)+ ( w - 恥 )1 沭 (1 + N( w P i Wi) ) 

关于的最大值，由此证明，对于 FDMA , 带宽应该与发送功率成比例。 

15.29 三 语演讲者广播信道。 一个演讲者能讲荷兰语、西班牙语和法语三种语言，他希望能够 
与 D 、 S 与 F 三个人同时交流。如果 D 只能听懂荷兰语但当西班牙单词讲出来之后他能 
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15.30 


15.31 
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区分出它不是荷兰语和法语单词。类似地，其余两个人分别仅能听懂法语或者西班牙 
语，但可以区分什么时候讲的是外文单词并且属于什么语种。假设荷兰语，西班牙语与 
法语的每一种语言均为 M 个单词。即 M 个荷兰语单词， M 个法语单词以及 M 个西班牙 
单词。 

( a ) 三语演讲者可以与 D 讲话的最大速率是多少？ 

( b ) 如果他以最大速率与 D 讲话，那么他同时能与 S 讲话的最大速率是多少？ 

( c ) 如果他以 ( b ) 中的联合速率向 D 与 S 讲话，他还能以正的速率与 F 通话吗？如果能， 
该速率是多少？如果不能，为什么不能？ 

移动电话的并联高斯信道。 假设发送者 X 向两个固定基站发送信号 X ,平均功率为 P 。 
设两个基站接收到信号分别为 Y , 和 Y 2 , 其中 

V ! = a,X + Z x 
y 2 = a 2 X + z 2 

其中 N ,), Z 2 ~ AT (0, N 2 ), 且 A 和2 2 是相互独立的。我们假设 a 在发射分 
组内是常数。 

( a ) 假设存在一个公共译码器¥=(广，¥ 2 )可以使信号6和 Y 2 同时译码，从发送者到 
公共接收器的信道容 ft 有多大？ 

( b ) 如果接收器 y , 和匕可以独立地对信号进行译码，这就变成一个广播信道。令尺! 
是基站1的码率，尺 2 是基站2的码率。找出此信道的容 tt 区域。 

高斯 多接入信道。 从信道容 》： 的角 度看， 如果每个用户箔要的功率为 P ， 那么对 于讲个 
用户的一个组，可以用一个高斯多接入信道来描述，且满足 




(15-395) 


其中 C(>r ) = f log(l + jr ), N 是接收器的噪声功率。一个功率为 P Q 的新用户希望加人。 

( a ) 在不干扰其他用户的前提下，他能以多大码率发送？ 

( b ) 为了使新用户码率与其他用户的组合通信码率 C ( mP / N ) 相等，他的功率 Po 应该是 
多大？ 

15.32 确定性广播信道的逆。 确定性广播信道定义为一个输人: v 和两个输出 a 和 y 2 组成的 
系统，其中输出匕与 y 2 是输人 X 的函数。于是， V ,=/,( X ), y 2 = mx)o 令&和 
尺 2 是满足信息可以被传送给两个接收者的码率。 证明： 

R^HiYO (15-396) 

R 2 < H ( Y 2 ) (15-397) 

R , + R 2 ^ H ( Y lt Y 2 ) (15-398) 

15.33 多接入信道。 考虑多接人信道 

y = X x + X 2 ( mod 4), 其中 X , e 10,1,2,31 , X 2 e |0, II 

( a ) 求容最区域 

( b ) 最大吞吐率尺丨 + 尺 2 是多少？ 

15.34 分 布式信源压缩 。令 

'0,q 0 f q 

且1/ = 42 2 , V = Z 1 + Z 2 o 假设&与2 2 相互独立。这样诱导出关于 （ a , V )的联合概 
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率分布。令 （ U ,， V ,)服从该分布的独立同分布序列，且发送者1描述的码率为]^，而 
发送者2描述 V "的码率为尺 2 。 

( a ) 为了在接收端恢复 （ a ， V ")， 求相应的 Slcpian - Wolf 码率 区域。 

( b ) 关于（ X ", V "), 接收器还剩多大的不确定性(条件熵)？ 

15.35 有成本的多接入信道容量 。使用字符 I 的成本记为 r (_ r ), 使用码字 or ” 的成本则为 r ( 〆 ） 

=如果一个 (2' rO 码簿满足 

^ r , V it * 6 2^ 

那么称其满足成本约束 r 。 

( a ) 寻找带有成本约束 r 的离散无记忆信道的信道容量 C ( r ) 的表达式。 

( b ) 如果发送者的成本约束为 q 而发送者 X 2 的成本约束为 r 2 , 那么对于 (A X 义， 

寻找离散无记忆信道的信道容最区域的表达式。 

( c ) 证明 ( b > 的逆命题。 

15.36 Slepian-Wolf 定理。 从三副扑克牌中抽出三张，分别分给发送者 A , 与又 3 。如果三个 

发送者按下图的方式发送信息给某个接收者， 



假设 （ X W , X 2 ,, X 3 ,) 是独立同分布的服从 II , 2, 31的所有 St 换集上的均匀分布。那么, 
他们分别箔要以多大的码率传输才能使接收者恢复牌上的信息？ 


历史回顾 


本章内容是在 El Gamal 和 Cover 的评论性文章[ 186] 的基础上整理而成的。香农 [486] 于 
1961年对双程信道进行了研究，并且给出了关于容 ft 区域的内界与外界槪念。 Dueck [175] 与 
Schalkwijk [464,465] 提出了针对双程信道的某些编码方案，其可达码率能够超过香农的内界；该 
信道的外界是由 Zhang 等在 [596] 以及 WiUcms 与 Hekstra 在 [558] 中得到。 

Ahlswede 〔7] 和 Liao [355] 找到了多接人信道的容量区域，随后 SI 印 ian 与 Wolf [501 〗将其推广 
为带有公共信息的多接人信道情形。 Gaarder 与 Wolf [220] 首次证明反馈可以增加离散无记忆多 
接入信道的容量。 Cover 和 Leung [133] 关 T 带反馈多接入信道提出了可达区域的概念，并证明这 
个区域对于由 WiUems [557] 提出的一类多接人信道都是最优的。 Ozarow [410] 确定出带反馈的两 
用户高斯多接人信道的容 M 区域 。 Coveret al .[129] 以及 Ahlswede 和 Han [12] 也考虑过相关的信 
源在一个多接人信道上的传输问題。 S 1 印 ian - Wdf 定理的证明是由 S 1 印 ian 和 Wolf [502] 给出的， 
Cover 在 [122] 中利用装盒子的方法将定理推广到了联合遍历信源情形。 

Cover ■在1972年发表的文章 [119] 中对广播信道进行了研究，而退化广播信道的容 M 区域是 
由 Bergmans [55] 和 GaHager [225] 获得的。针对退化广播信道提出的鳌加编码方案也是低噪声的 
广播信道 ( Kdmer 和 Man on [324]), 大容量的广播信道 ( F 」 Ciamal [185]) ，以及具有退化消息集的 
广播信道 ( Kdmer 和 Marton [325]) 等信道的最优化方案 。 Van der M e uleii [526] 和 Covert 121] 提出 
了针对一般广播信道的可达区域。确定型广播信道的容景是由 Gelfand 与平斯克 [242, 243, 423] 
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60^以及 Martoii [377] 发现的。其中关于广播信道最为著名的可达区域定理当属 Mart 0 n [377]。 同时 
El Gamal 和 Van der Meul en [ 188] 给出了 Marton 区域的一个简单证明 。 El Gamal 还在 [184] 中证明 
反馈并不会使一个物理退化广播信道的容量增加。 Dueck 在 [176] 中举出了一个简单的例子说明 
反馈能够使无记忆广播信道的容量增加； Ozarow 和 Leung [411] 对于带反馈的高斯广播信道描绘 
了一个编码程序，由此说明在此情形下反馈的确能增大容量区域。 

中继信道是由 Van der Menlen [528] 引人的， Cover 和 El Gamal 在 [127] 中获得了退化中继信 
道的容量区域。 Carleial 在 [85] 中介绍了具有功率约束的高斯干扰信道并且证明了非常强的干扰 
等于总体无千扰。 Sato 与 Tanabe 在 [459] 中将 Carleial 的工作推广到了具有强干扰的离散干扰信 
道。 Satt >[457] 和 Benzcl [51] 研究了退化的干扰信道。关于一般干扰信道的最著名的可达区域定 
理是由 Han 和 Kobayashi [274] 给出的。该区域给出了干扰参数大于1的高斯干扰信道的容最，其 
证明见 [274]( Hari 与 Kobayashi ) 与 [458]( Sato )。 对于干扰信道， Carleial [84] 证明了有关容童区域 
的更新界。 

带边信息的编码问题是 Wyner 和 Ziv 在文献 [573] 以及 Wyner 在 [570] 中介 绍的； 而对于该问 
题的可达区域的讨论则是由 Ahlswcdc 与 K 6 mcr 的文章 [13] 以及其他一系列文章，如 Gray 和 
Wyner [26 l ], Wyner [571, 572] 完成的。 Wyner 和 Ziv [574] 解决了带有边信息的率失真函数的求 
解问勉。具有边信息的率失真的信道容 ft 备份是由 Gelfand 与平斯克 [243] 解决的。 Qwer 与 
Chiang [113] 对两种结论的对偶性进行了探索 。 El Gamal 和 Cov er U 87] 对多重描述问题进行/ 
探讨。 

K 6 me r 和 Manors 326] 讨论了如何对两个随机变敏的函数进行编码的问题，并给出了对于两 
个二值随机变 撖的模 2和的编码的一个简单方法。 Csiszdr 和 Komer 在文献 [148] , [ 149] 中针对描 
述信源网络提出了一般框架。 Berger 和 Yeung [54] 论述了一个公共模型使得 Slepian - Wolf 编码， 
带边信息的编码以及带边信息的率失真编码等都成为其特殊情形。 

1989年， Ahlswede 与 Dueck [17] 引人了由通信信道进行识别的问题，该问题可以视为一个发 
送器发送消息给多个接收器而每个接收器只需知道某条消息是否已经发送了。在这种悄况下， 
M 所有可能被安全地发送的消息之集中，能够被识别数目是随分组长度的增长按指数成倍地增长， 

该文章的关键结论是证明了对于任何容贵为 C 的噪声信道，有2/条消息能够被识别。围绕该问 
题，引出了一系列的论文[16, 18, 269, 434], 内容包括带反馈的信道以及多用户信道。 

另一个活跃的研究领域是多输入多输出 （ MIMO ) 系统的分析或者时空编码。对于无线通信 
系统而言，这要在发射和接收端用到多个天线来获得来自于多路的多样性增益的优势。对于这 
种多天线系统的分析是 Foschini [217], Teletar [512] , Rayleigh 与 Cioffi [246] 等的工作，他们证明 
了在衰退环境中通过多天线获得的多样性所导致的容最增益，可以由通过传统的同等化和交错 
技术达到的单用户信道容最来替代。这是 Transactions in Information Theory [70] 的一个专 
题，已经有许多论文从该技术的不同侧面进行了研究。 

希望全面了解有关网络信息理论的知识的读者可以参阅 E1 Gamal 和 Cover [186], Van der 
Meulen [526 - 528], Berger [53] 以及 Csiszdr 和 K 6 mer [ 149] ， Verdu [538], Cover [ lll ], 以及 
6111 Ephremides 和 Hajek [ 197]。 


第 16 章信息论与投资组合理论 


股票市场中财富的增长率与该市场的熵率之间的对偶关系是引人注意的。特别，我们将寻 
找既是竞争最优又是增长率最优的投资策略。这完全类似于香农编码既是竞争最优又是期望描 
述码率最优。我们也将针对遍历的股票市场过程来寻找财富的渐近增长率。我们将以对万能投 
资组合的讨论作为本章的压轴戏，这种万能投资组合的相对收益与最佳恒定持仓比例方法 （事后 
诸葛亮方式)所得的渐近增长率相差无几。 

在 16.8 节中，我们针对一般遍历过程的渐近均分性质给出一种“三明治”证明方法，这是受 
到了关于平稳遍历的股票市场中的虽优投资组合的启发而得的。 

16 . 1 股票市 场：一 些定义 

用数学语言表述(不考虑股果间的相互关 系)， 一个股票市场是由各只股票为分量组成的列向量 x = 
UhA, …, XJX 上标 f 表示转置，以下问。 一 译者注), <>(^ = 1,2, … ， ;71 ， 其中 m 是该股票市 
场中所有股票的只数， X ,称为相 对价格 (price relative ), 其为第/只股票当天的收盘价与开盘价之比。 

所以，实际情况中 X , —般非常接近于1。例如，当夂= 1.03 时，它表示第只股票当天 上涨了 3%。 

设 F ( x ) 是相对价格向 M 的联合分布， X ~ F ( x )。 一个投 资组合 （ portfolio ) 是列向 ttb =(6 lf 
6 y ,6 m V ,6,>0,5>, = l , 其实，它就是将资金如何按比例分散投资到各股上的分配方案，其 
中6,理解为某人投资第 f 只股票的资金占其总投资的比例。如果采用投资组合策略 b , 而股洪向 

敏为 X ,那么相对收益(指当天收盘时的总市值与开盘时的总市值之比)则为 S = [612 

我们希望在某种意义下使 S 最大化。但 S 是一个随机变 ft ,其分布依赖于投资组备 b , 所以 [611 
在关于 S 的最佳分布的选择问题上存在着争论。标准的股票投资理论基于考虑 S 的一阶矩和二 
阶矩，即在方差约束之下使得 S 的期望值最大化的问题。由于一阶矩和二阶矩很容易计算，因 
此，该理论比处理 S 的整体分布的理论更为简洁。 

股票市场中的夏普•马科维茨 ( SharpeMarkowitz ) 投资理论的-•个基础是均值-方差分析法， 

而且它在商业分析和其他众多领域中也有着广泛的应用。图 16-1 描述的就是各种投资组合可能 
获得的所有均值_方差对的集合，该区域边界的上半部分对应于占优势的投资组合：在给定的方 
差之下，它们的均值最大。该边界点的集合称为有效边界，如果谁只想追求均值和方差，那么他 
可以只沿着该边界进行投资运作。 

正常情况下，当引 入无风 险资产 ( risk-free asset ) (例如现金、国债，它们都能够补偿一定的利 
息且方差为0 ) 之后会使该理论得到简化。无风险资产在图形中对应于 Y 轴上的一个点。将无 
风险资产与各种股票组合在一起，可以获得从无风险资产出发到有效界面的切线下方的所有点。 
此时该直线变成为有效边界的一部分了。 

有效界面理论意味着每只股票在其风险固定之下有其内在的价值。股票价格的理论称为资 
本市场资产定价模型 （capital asset pricing nxxiel , CAPM ), 其作用是评估个股的价值到 I 氏是被节场 
高估了还是低估了。注意随机变量的均值给出了关于该随机变量独立同分布随机序列之和的长 
期习性的信息。但是，在股票市场中，假设每天都在进行再投资，所以到了第”天收盘时，相对收 
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图 16-1 gff - 马科维茨理论：所冇可获得的均值-方差对的集合 


益是这《天中每天的相对收益之乘积。该乘积的行为不是由期望值本身，而是由期望值的对数 
来决定。这启示我们给出如下关于增长率的定义： 

定义股票市场中的投资组合 b 关于股票的分布 F ( x > 的增长率 (growth rate ) 定义 如下： 

W ( b . F ) = Jlog b r xdF ( x ) = E ( logb r X ) (16-1) 

如果对数的基底是 2, 增长率也称为双倍率 (doubling rate )。 

定义投资组合 b 的最优增长率 W ( f ') 定义如下 

^•( F ) = maxW ( b , F ) (16-2) 

b 

其中最大值遍取所有可能的投资组合 A , >0,乙 A = 1。 

定义如果投资组合 b •使得增长率 W ( b , F ) 达到最大值，那么称为对數最优投资组合或者 
增长最快的投资组合。 

为了说明增 K 率定义的合理性，给出下面的定理，表明相对收益按速度增长。 

定理 16.1.1 设 XpX 2 , …， X „ 为服从 F ( x ) 的独立同分布随机序列。令 


615 



S ； = 

1 

(16-3) 

是在恒定持仓比例投资组合 

之下71天之后的相对收益，那么 


证明： 由强大数定律可知, 

丄 logS:-W 依槪率1 

n 

(16-4) 


= ^ Eiogb -% 

n n .=i 

(16-5) 


-W 依槪率 1 

(16-6) 

所以 S « :士 2 " w ’o 


□ 


接下来讨论增长率的一些性质。 

引理 16.1.1 W ( b ， F ) 关于 b 是凹函数，关于 F 是线性的。而 W ( F ) 关于 F 是凸函数。 
证明： 增长率公式为 

W ( b , F ) = Jlog b 、 dF ( x ) (16-7) 

由于积分关于 F 是线性的，所以 W ( b ， F ) 关于 F 是线性的。又由于对数函数的凸性，可知 

MAb , + (1 - A ) b2 ) r X>Alog bJX + ( l - A ) log^X (16-8) 
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两边同取数学期望町以推出 VV ( b ， F ) 是关于 b 的凹函数。最后，为了证明 WMF ) 是关于 F 的凸 
函数，假设和 F 2 为股市中的两个分布，并令 ( F ,) 和 b ' ( F 2 ) 分别是对应于两个分布的最优 
投资组合。令1> # (；^ 1 + (1-义）匕)为对应于^^ + (1-义）6的对数最优投资组合，那么利用 W 


( b , F ) 关于 F 的线性性，我们可得 

W *( Af -' 1 + ( l - A ) F 2 ) 

= W ( b * ( AF i + (1- A ) F 2 ), AF i + (1- A ) F 2 ) (16-9) 

= AW ( b B ( AF 1 +( l - A ) F 2 ), F I ) 

+ (1 - A ) W ( b -( AF , + ( l - A ) F 2 ), F 2 ) . 

< AW ( b -( F l ), F I ) + ( l - A ) W ( b B ( F 2 ), F 2 ) • 06-10) 

因为 1/(^\)和^(^) 分别使得以(1)，匕）和 W ( b , F 2 ) 达到 M 大值。 口 

引理 16.1.2 关于某个分布的全体对数最优投资组合构成的集合是凸集。 

证明 .•令 br 和 W 是两个对数最优投资组合，即 W ( b ,， F )= VV(f )= W ( F )。 由 W ( b ， 

F ) 的凹性可以推出 

W ( Ab I + ( l - A ) b 2 , F )> AW ( b 1 , F ) + ( l - A ) W ( b 2 , F ) = W ( F ) (16-11) 

也就是说，还是一个对数最优投资组合。 □ _ 

在下一节中，我们将利用这些性质来刻画对数 M 优投资组合。 _ 

16.2 对数最优投资组合的库恩-塔克特征 


令6 = = II 表示所有允许的投资组合集。确定出达到 W ( F 〉 时的 

b •为凹函数 VV(b，f、) 在凸集 B 上的 M 大化问题。这样的最大值可能落在边界上。因此，可以直接 
使用标准的库恩-塔克条件来刻画 M 大值。但我们还是选择从源头出发来推导出这些条件。 

定理 16.2.1 —个股票市场 X 〜/ ••的对數最优投资组合 b •(即使得增长率 W ( b , K ) 达到最 


大值的投资组合）满足下面的充要 条件: 


E (^) < 


( 16 - 12 ) 


1 当6/ >0 
1<1 当6;=0 

证明：由于增长率= 是 b 的凹函数，其中 b 的取值范围为所有投资组合形成 

的单纯形。由此可知， h •是对数最优的当且仅当 W (0 沿着从 b •到任意其他投资组合 b 方向上 


的方向导数是非 正的。 于是，对于 0< A <1, 令 b . = ( l - A ) l /+ Ab , 我们可得 

^ W ( b x )\ <0, (16-13) 

uA Ia=0 + 

这些条件最终简化成式 U 6-12), 这是由于”(匕）在 A =0+ 处的单边导数为 


知導” L + 


㈣ 卜 n 迎 )） 

(16-14) 

士十 A (爲- 1 ))) 

(16-15) 

碼& 

(16-16) 


式中极限与期望的次序可交换是由控制收敛定理 [39] 保证的。从而，式 (16-13) 简化为 
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对所有成立。如果从 b 到 IT 的线段珥以朝着1/端在单纯形0中延伸，那么你（匕）在 A =0 
点具有双边导数且导数为0,于是，式 （16-17) 变成等式。如果不然，式 (16-17) 只能取不等式。 

库恩-塔克条件只要在单纯形6的所有端点成立,就能推出所有投资组合在整个单纯形上成 
立，这是因为 £( b f X / b ” X ) 关于 b 是线性的。另外，从第 j 个端点 b :~ = l ,6, = 0( f 关 j ) 到 K 的 
线段可以朝1/端在单纯形中延伸当且仅当6/>0。于是，刻画对数最优的》/的库恩-塔克条件 
等价于如下的充要 条件： 




(16-18 )D 


由该定理，立即可以得到几个 推论， 其中一个有用的等价关系表述为如下定理。 

定理 16.2.2 设 S * = b”X 是对应于对数最优投资组合 》)• 的相对收益，令 S = WX 是对应 


于任意投资组合 b 的随机相对收益，那么 


m\ 


£ ln ^*<0 对所有的 S «=>£— for all S (16-19) 

证明： 对于对数最优投资组合 IT , 由定理 16.2.1 可知，对任意有 

E ( 為 )<1 < 16 - 20 ) 

上式两边同乘6,,并且关于 f 求和，呵得到 

5〜£(為)<2〜=1 06-21) 

等价于 

£ b^C =£ | r<1 (16-22) 

其逆可以由 Jensen 不等式得出，因为 

£ log ^< logE ^< logl =0 (16-23)口 


渐近增长率促使我们考虑期 M 对数的最大化。而我们刚讲过的对数最优投资组合不仅使得 
渐近增长率最大化，也使每天相应的期望相对收益比值 E ( S / ST 最大化”。用这种组合的博弈 


论最优化的观点来看，我们还需要讨论对数最优投资组合的短期最优性。 


对数最优投资组合的库恩-塔克特征的另一个推 论是： 如果采用对数 M 优投资组合策略，那 
么对于每只股票的投资，所获得资金的比例的期望不会逐天变化。具体地说，我们考虑第一天收 
盘时的所有股票。假如资金的初始分配为 V ，那么当天收盘后，第/只股票的相对收益与整个 
投资组合的相对收益的比例为 W /( b 〃 X ), 其期望为 


b* X, . X, • 


(16-24) 


因此，第/只股票当天收盘后的相对收益占整个投资组合的相对收益的比例的数学期望与当天开 
盘时投资该股的资金比例相同。这是 Kelly 按比例博弈的翻版，即，一旦选定按比例进行投资组 
合，那么在随后的整个投资期内，在期望意义下，该投资比例保持不变。 


16.3 对数最优投资组合的渐近最优性 


在 16.2 节中引人了对数最优投资组合的概念，并根据重复独立的股票市场中连续投资的长 
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期行为解释了引人这个概念的理由。本节我们继续拓展这个思路并将 证明： 采用条件对数最优 
投资组合策略的投资者比按任何因果投资策略的投资者做得好的概率为1。 

首先考虑一个独立同分布的股票市场，即 Xi , X 2 , …, X „ 为独立同分布且服从 F ( x ) 的股票向 
量序列。令 

S „ = IT ^ X , (16-25) 

表示某投资 者第” 个交易日收盘后的相对收益 / i 中 b , 为该投资者第 f 天的投资组合策略。再令 

W m = max \ V ( b , F ) = max E log b r X (16-26) 

为最大增长率，并用 b •表示达到最大增长率的投资组合。我们假设所有投资组合 b , 只是因果地 
依赖于过去，而与股票市场未来的市值独立。 

定义一个盲目的 （ nonamicipating ) 或者因果的 （ causal ) 投资组合策略是一列映射 ㈣ 
—6,其中 h ( Xl ，…,释为第个交易日的投资组合策略 a 

由 W •的定义可以直接 得出： 对数最优投资组合使得最终资金的对数的数学期望达到最大。 
我们将此叙述于如下的引理中。 

引理 16.3.1 设为在独立同分布股票市场中采用对數最优投资组合策略 b * 1 , w 个交易 
日后的相对收益，为采用因果投资组合策略 b , 所对应的相对收益，那么 

£ logS : =，>£ logS ” （16-27) 

证明： 


个交易 


(16-27) 


= S ] max E lo 


E \ ogbl ( X lt \ 2t 


= SElogb-% 


(16-28) 


(16-29) 


(16-30) 



7<0 


证明： 由库恩-塔克条件以及 S 〗 的对数最优性质，可推出， 


令 1 


(16-32) 


(16-33) 


从而，由马尔可夫不等式，我们得到 


Pr(S n >^；) = Pr(|?>t n )<^ 


( 16 - 34 ) 


6 l 9 


= n \ V m (16-31) 

可见， M 大值恰好是在恒定的投资组合策略 f 之下达到的。 □ 

至此，已经证明了对数最优投资组合的定义的两个简单的推 论：即 满足式 （16-12) 的 b •使得 

对数资金的期望达到 ft 大值； 以及所得收益以高概率在一阶指数下等于 WS > :士2”’。 

下面证明一个更强的结论，它表明在一阶指数意义下，对于来自股票市场的几乎每一个股票 
向 tt 序列， S 〗 均超过任何其他投资者所能获得的相对收益。 

定理 16.3. 1( 对数最优投资组合的漸近最 优性） aXpX 2 ，…， X n 为独立同分布且服从 F(x) 

的股票向量序列。令 S : = ,其中 b •为对教最优投资组合，而= fl 、 X , 为其他因 [620 

<-1 

果投资组合所产生的相对收益，則依概芈1有 
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因此， 

Pr(jlog^>^logf„)<-i (16-35) 

取 f „ = n 2 , 并对所有 n 求和，我们便得到 

gPr ( 士 log 昜 = f (16-36) 

此时，再利用 Borel-CanteUi 引理， 

Pr (士 无穷多个成立 )=0 (16-37) 

这意味着对于股市的几乎每个股票向*序列，存在 N , 使得当 n > N 时，均有 

n ^>n 

_成立。于是， 
n 

limsup^-log ^^0 依概率 1 (16-38 )口 

n s „ 

该定理证明了在一阶指数意义下，对数最优投资组合表现相当好，超过任何其他方式的投资 
组合。 

16.4 边倍息与增长率 

我们在第6章中曾经证明了针对赛马 x 的边信息 y 可以用来提离增长率(通过互信息 /( x ； 
Y ))。 接下来将该结果推广到股市中。此时的 /(X; Y0 是增长率的上界，仅当 X 表示赛马时等号 
成立。首先考虑当我们轻信了一个错误的分布将会招致增长率有多大的损失。 

定理 16.4.1 设 X 服从分布 /(x),~ 为对应于 /(x> 的对數最优投资组合，而 心为对 应于另 
一密度函数 g(x) 的对數最化投资组合。那么，采用卜替代心所带来的增长率的增量满足如下不 
等式 


△ VV= W(b f ,F)- W(b^F)^D(f\\g) 

(16-39) 

证明： 我们可得出如下不等式系列 


= J/(x)IogbJx-J/(x)logb|；x 

(16-40) 

= J/(x)logg 

(16-41) 

- （V ⑷ loc 吻也幽 

-jy(x)iog^ /(x) ^ (x) 

(16-42) 

= •[仰 k ^^ +D(/l| w 

(16-43) 

^ log l /(x) fx/U) + D(/lig) 

(16-44) 

= logj^(x) ^ + D(f II g ) 

(16-45) 

<iogl + D(/llg) 

(16-46) 

- D(f\\g) 

(16-47) 


其中 （ a ) 由 Jensen 不等式导出， （ b ) 由库恩-塔克条件以及心关于 g 的对数最优性定义 
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导出。 □ 

定理 16.4.2 由边信息 Y 所带来的增长率的增量满足如下不等式 

AW </( X ; Y ) (16-48) 

证明： 令 (x, 10 服从分布 /( u )， 其中 x 是市场向 M , 而 y 是相应的边信息。当已知边信 
息时，对数最优策略投资者采用关于条件槪率分布 /(xl Y = 3 ，) 的条件对数最优投资组合。 
从而，在给定条件 y = ： y 下，利用定理 16.4.1, 可得 

△W y=y <D(/(xl y = y) || fix)) = \f(x I y = y)\og L(x[ f ^ ^dx (16-49) 


对 Y 的所有可能取值进行平均，我们可得 

AW<J/(^)J/(xl V = y)log /(X J /( Y X )~^ dxd 3 > (16-50) 

={J s /(^)/(x I Y = y)\og 力 j{y) dxdy (16-51) 

=(16-52) 

=/(X;V) (16-53) 

从而，边信息 y 与股票市场 X 之间的互信息 /( X ; y ) 是增长率的 增撖的 上界。 □ 


16.5 平稳市场中的投资 

本节将 16.4 节中关于独立同分布的市场的一些结果推广到时间依赖的市场过程。 

设&,又 2 ，…, X„ ，… 为向撖 值随机过程， \,> 0 o 我们下面考虑的投资策略是以因果方式依赖 
于市场的历史数据，即 b, 可以依赖于 X,,X 2 , …， X,^ 。令 

S” = fl^(X 1： X 2 ,-, X l .|)X, (16-54) 

我们的目标是让 £iogS n 在所有因果投^组合策略集 lb ,(•) I上达到《大值。而此时 

爾 

^iriax^E logS” = 2 ^ ^max^ E log h^X, (16-55) 

=logK% (16-56) 

其中，V是在已知股票市场的历史数据下， X, 的条件分布的对数最优投资组合，换言之，如果 
记条件最大值为 

max E[logb r X, 丨 (Xi，X 2 , …，X= (Xi，x 2 , …， x … 

= W (X f ix,,X2 f — ,x^,) (16-57) 

则 br( Xl ,x 2 , …, x, M ) 是达到上述条件最大值时的投资组合。关于过去取期望，我们记 

W(X I IX 1 ,X 2 ,-, X l . l ) = £ m ? xE[log ^ X , IX 1 , X 2 ,-, X f - l ] (16-58) 

称为条件增长率，式中的最大值函数是取逍所有^义在…， X,—上的投资组合 b 的投资组 
合价值函数。于是，如果在每一阶段中均采取条件对数最优投资组合策略，那么最高的期望对数 
回报率是可以实现的。令 

W (X, ,X 2 , - ,X n ) = ^max b E logS,, (16-59) 

其中最大值取自所有因果投资组合策略。此时，由 logS； = Elog^% ,我们可以得到如下关 
于 W" 的链式 法则： 


622 


623 




[624] 


it 

W ( X " X 2 ，“.， X n ) = I X ^ Xz .-^ X ,.,) (16-60) 

该链式法则在形式上与 H 的链式法则完 S —致。在某些方面， W 的确是 H 的对偶 u 特别 
地，条件作用使 H 减小，而使 W 增加。我们接下来定义关于时间依赖的随机过程的熵率。 

定义如果如下极限存在， 

(16-61) 

n — °° n 

那么称 W 二为增长车。 

定理 16.5.1 对于平稳市场，增长芈存在且等于 

Wi = lanW ( XjX 1 , X 2 ,-, X nM ) (16-62) 

证明： 由平稳性可知，^(\，陔 1 ，\ 2 ，一,\ ?| _ 1 )关于^1是非减函数，从而极限必然存在，但 
有可能为无穷大。由于 

= 士 丨 HU (16-63) 

71 n i-l 

由 Cesdit ) 均值定理(定理 4.2.3) 可以推出式左边的极限等于右边通项的极限。因此， Wi 存在，且 


d ) = lim m IXi , X2 ，.", x ”_ 


W 二 = lim V J - 2， " \\ rnW m (\ n \\ lt \ 2 t -,\ n - i ) (16-64) 口 

霉 •_ tl » 

我们接下来可以将渐近最优性推广到平稳市场，见如下的定理。 

定理 16.5.2 对任意随机过裎尺？，为条件对数最优投资组合，而 
为对应的相对收益。令 S n 为对应某个因果投资组合策略 b / V 1 ) 的相对收益。那么，关于由过 
去的；，… ，尤 生成的 a 代数序列，比值 义 / S : 是一个正上鞅。从而，存在一个随机变量 
V ,使得 


V ‘依概率1 


EV<A 


(16-65) 

(16-66) 




(16-67) 


(16-68) 


(16-69) 


(16-70) 


证明： S ”/ S : 为正上鞅是因为使用关于条件对数鼓优投资组合的库恩-塔克条件可得 

卟 E [ 鐵 端卜] U ㈣ 
= 端 £ & 卜] (16 - 69) 

國 <16 - 70) 

于是，利用鞅收敛定理得知 s„/s: 的极限存在，记为 V ，那么 £ V <£( S G / S ( T ) = 1。 最后，利用 
关于正鞅的科尔莫戈罗夫不等式，我们可以得到关于 sup ( S n / S ； )的结果。 □ 

我们注意式 （16-70) 解释了 S : 的竞争最优性的强度。明显地， S „( V ) 曾经出现过为 
syx 1 ) 的】0倍的概率不超过1/10。对于平稳且遍历的股市，我们也可以将渐近均分性质推广 
后用来证明下面的定理： 

定理 16.5.3( 股票市场的 AEP ) 假设 X ,， X 2 , …， X „ 是一个平稳遍历的向量值随机过程。令 
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S : 为采用条件对数最优策略在时刻7!所获得的相对收益，即 

a 

s ； = nwx, ， x 2 ， .“,x,- 】 )x, (16-71) 

那么，依概率1有 ^ 

hogS：-*Wl (16-72) 

证明： 定理的证明过程设及 16.8 节中将证明 AEP 的“三明治 ”[20] 方法生成。此处暂不给出 
详细的证明 (Algoct and Cover [21]) 0 □ 

在结束本节之前，再次考虑赛马的例子。赛马是股票市场的一个特殊情形，只要认定该市场 
中的 m 只股票恰好对应者 m 匹赛马。当比赛结束时，第/匹赛马所对应的马票要么为0要么为 
0 ,, 其中，为买第；匹赛马的机会收益率 D T 是， X 的非0分 M 总是对应于获胜的赛马。 

在这种情况 F , 对数最优投资组合是按比例下注，此乃著名的 Kelly 博弈策略（即 = A )， 
如果机会收益是均匀公平的（即，0, = //|,¥/),那么我们有 

W m = logm - H ( X ) (16-73) 

假如有一个相关的赛马序列，那么最优投资组合是按照条件比例博弈。如果这样，渐近增长率为 

W ^ = \ ogm - H (^) (16-74) 

其中，当极限存在时， …，; O 。 此时，定理 16.5.3 保证 

n 

S ；=2 wW， * (16-75) 

这与第6章中的结果一致。 


16.6 对数最优投资组合的竞争最优性 


是否对数 M 优投资组合在指定的有限时刻《总是比其他的投资组合优越？作为库恩-塔克 
条件的一个直接推论，我们有 

(16-76) 

从而，由马尔可夫不等式可知 

Pr ( S n > tS ；)^ (16-77) 


该结果类似于第5章中已经导出的关于香农码的竞争最优性。 

通过例子可以发现，对于使得 S ”> S : 成立的概率的上界，我们不可能再做出更好的估计。 
例如，假设股票市场只有两种股票，并且只有两种可能结果， 


( X ,, X 2 ) = 


依槪率1 
(1,0) 依概率 e 


(16-78) 


在该市场中，对数最优投资组合的方案应该是将所有资金完全投入到第一只股票中（容易验证, 
投资组合 b =( l ，0) 满足库恩-塔克条件)。但是，如果投资者将其所有资金全部投人到第二只股 
票的话，那么有 1- e 的概率赚更多的钱。从而，对数最优投资组合策略不会以很高的概率领先 
于其他投资组合策略 D 


由于实际中的确存在着许多类似于上述的例子的情形，在绝大多数时间，其他投资策略可能 
以微弱的优势领先对数最优投资策略。因此，证明对数最优策略投资者至少会以50%的概率领 
先于其他策略的问题也无法实现 3 但是，如果我们允许每个投资者加人额外的均匀随机项（它的 
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作用就是为了减少由于相对收益中的微弱差异而引起的效应），那么可以得到一个接近的结果。 

定理 16.6. U 竞争最优性）设 S •是按照对數最优投资组合策略在股票市场 X 上到一个投资 
期的期末时的相对收益，而 S 是同期的按照其他投资组合策略得到的相对收益。假设 LT 是[0,2] 
上与 X 独立分布的随机变量， V 是另一个与 X 和 LT 独立的随机变量，且满足 V >0 ,E V = l 0 
那么 

FKVS^LT S*Xy (16-79) 


注释此处的 IT 和 V 为对初始资金的“均匀”随机化。从初始资金 S 0 = l 转变成为“均匀” 
资金 LT 在实际操作中，只要游戏规则“公平”就可以实现 3 这种随机化处理的效果就是将比值 
S / S •偏差很小的部分消除，仅保留的偏差很显著的项，因为它们才能影响获胜概率。 


证明： 我们有 


Pr ( V S W S •) = W ) 

(16-80) 

= Pr ( W^U m ) 

(16-81) 

其中 W = g 是非负随机变撤且均值为 


ew=e(v)e(p)^i 

(16-82) 

这是由 V 与 X 的独立性以及库恩-塔克条件得到的 a 令 F 为 W 的分布函数， 
上的均匀分布，可得 

由于 tT 是 [0,2] 

Pr ( W ^ U') = ( 2 Pr ( W > w)f v .(w)dw 

J o 

(16-83) 

= J 2 Pr ( W > w) ydit - 

(16-84) 

= J :甲如 

(16-85) 


(16-86) 

=yEW 

(16-87) 


(16-88) 

可利用已经证明过的如下结论（由分部积分法得到〉而得到，即对于一个正值随机变世 w ， 有 

EW = J o (1 - F(w))dw - 

(16-89) 

因此，我们有 


Pr ( VS^ U # S ， ) = Pr ( W^U' Xy 

(16-90 )D 


定理 16.6.1 提供了采用对数最优投资组合的一个短期效果评价。如果投资者的惟一目标是 
在股票市场每天收盘后领先于他的对手，且均匀随机化是允许的，那么，定理 16.6.1 告诉 我们: 
投资者首先应该将他的初始资金转变为服从[0,2]上均匀分布的资金，然后使用对数最优投资组 
合策略进行投资。这是使用博弈论方法解决股市中的竞争博弈问题的一个例子。 

16.7 万能投资组合 

在 16.1 节中开发的对数最优投资组合策略依赖于股票向量的分布已知的假设，基于该分布 
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才能计算出最优投资组合 IT 。但在实际中，往往不知如何得到该分布。本节我们介绍一种因果 
投资组合，其对于单个的序列有很好的表现。于是，我们除了必须假设股票市场可以看作是一个 
向遺列&,1 2 ，…，云尺？之外，不再作任何统计假设了。其中， x , 表示全部股票第 f 天的相对价格 
构成的向量，而其分 fl %表示第 j 只股票第£天的相对价格。我们首先针对有限长度的情形， 

即，只依据已经发生的 n 个向 ft 然后再推广到无穷情形。 

已知股票市场的股票序列之后，我们到底能够做得多好？可实现的最大的增长率当属由事 
后诸葛亮式的恒定持仓比例投资组合策略得出的增长率。此策略是基于已知的股票市场向虽构 
成的序列的条件下的最佳恒定持仓比例投资组合。注意，恒定持仓比例投资组合是可以与服从 
已知分布的独立同分布的股市序列的策略抗衡的佼佼者。所以，考虑这样的投资组合策略是顺 
理成章的。 

我们假设有一揽子共同基金，其中每只共同基金都执行恒定持仓比例投资组合策略。我们 
的目的是实现对这些基金的最佳管理。本节我们将证明，即使在没有股市向分布的先验知识_ 
的情况下，我们也能够凭借最佳恒定持仓比例投资组合策略做得很好。 

第一种手段是将资金分散给所管辖的所有基金经理，让每个基金经理遵循各自独特的恒定 
持仓比例投资组合策略。由于每个基金经理都想将业绩做得比其他人好，因此72个交易日之后 

的资金将达到本期内的最大。我们将证明，在不计较折扣因子 rT ®# 的意义下，我们的收益可 
以达到最佳的基金经理的业绩。这是我们 I 对于无穷范围的万能投资组合策略讨论的 
基础。 

第二种手段是将该问题视为一个对抗恶意竞争对手的博弈。其中，允许该竞争对手挑选股 
市向鼠序列。我们定义一个因果（即兴)投资组合策略 6(X, — ,•••,々），其仅依赖于股市序列的历 
史记录。此时，对手凭借对策略 hx, — ，…, Xl ) 的了解，选择一个向撖列 X, 来构造一个投资策略， 

其结果与 ft 佳恒定持仓比例该方法的表现相比要多糟就多糟。令 bVx ”） 为关于股市序列 X” 的拟 
佳恒定持仓比例组合。注意， V ( x ”) 仅依赖于该序列的经验分布，并没有要求向馕必须出现。当 
第 ri 个交易日收盘时，恒定持仓比例组合 b 策略对应的相对收 益为： 

S n (b,x") = itb^x, (16-91) 

而最佳的恒定持仓比例投资组合 b " ( x ”） 的获得的相对收益为 

S :( x ") = max 11 b r x , (16-92) 

然而，该因果投资组合策略 6, (^ 1 )获得的相对收益仅为 

S„(x”） = fUW (16-93) 

f，l 

我们的目标是用 比值艮 / S : 找到一个因果投资组合策略 6(0= ( LMa ) ，…，6, ( x l_1 )), 使 
得在最糟糕的情况下的表现也不错。为此，我们将寻找最优的万能投资组合策略，并且证明该策 
略对于任何股市序列上的相对收益,与最佳恒定持仓比例组合策略在该序列上的相对收益 s 〗[630 

之比例因子 K & rrY 。 该策略依赖于该博弈的期限”。稍后,我们给出某些无限期的结果，几 
乎也与有限期情形一样，在最差情形也有此相同的渐近表现。 

16.7.1 有限期万能投资组合 

我们首先分析投资期为 ”个交 易日的股市，其中”是事先知道的。我们试图找到一种投资 
组合策略使得它能够跑贏 n 只股票组成的股市大盘。主要结果可以描述为如下定理。 
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定理 16.7.1 对于一个长度为 rz , 投资品种数量为 m 的股市序列 x ” = xi , …， 尺？， 
4 S f ：( X ”） 与 S „( X ”） 分别为由基于 X n 的最佳恒定持仓比例投资组合策略与因果投资组合策略达 
到的相对收益 6,(.) 关于 X '那么 



其中， 

V n = [ 2 ( ” •…列 1 (16-95) 

由斯特林近似公式，我们可以得到 K 与 rrV 同阶。因此，关于最糟糕情形的万能投资组合的 
增长率与关于该序列 M 佳恒定持仓比例投资组合策略的增长率之比值至多相差一个多项式因子。而 
万能投资组合的相对收益的增长与最佳恒定持仓投资组合的比值的对数6就像一个通用信源编码的 
冗余。（参见 aitarkov ^%], 其中， ) cgV n 表示数据压缩中单个序列的最小最大冗余。） 

我们首先以《 = 1为例解释我们的主要结果。考虑一天只有两只股票的情形。令 x = ( x lt x 2 ) 
为当日的股市向童。 当心 > ： 1： 2 时，最佳投资组合是将所有资金买成第 1 只 股票； 当: 1^<0： 2 时， 
最佳投资组合是将所有资金买成第 2 只 股票； 当 ：n = x 2 时，所有投资组合等同。 

接下来，假设必须事先选择一个投资组合，然后对手基于我们选定的投资组合选择股市序 
列，使得我们的投资组合与 M 好的投资组合相比表现得一败涂地。亊实上，当我们的投资组合已 
_知时，只要让我们投资多的股票的权重为0而让其他的股粟的权重为1,对手可以让我们彻底套 
牢。于是，我们的 ft 佳策略当然是对两只股票取相同的权重，基于这个投资策略，我们所得的增 
长因子至少应 该是最 佳的股粟的增长率的一半。从而我们的收益至 少是最 佳恒定持仓比例投资 
组合策略的收益的一半。当 《 = 1 而 m =2 时，计算出等式 （16-94) 中的 V „ = 2 并不难。 

但是，该结果肴上去有些误导，因为它明显地暗示在”个交易日的投资期内，每天都必须采 
用固定平均比例的投资组合把资金平均分成两半投资到每只股票上。如果我们的对手每天都选 
择股市序列为第一只为1,而第二只为0,那么均匀策 略最终 相对收益仅为 l /2 n , B 卩，我们的均匀 
投资策略最终相对收益仅是 M 优的恒定持仓比例投资组合（即每天将全部资金投人第一只股 «) 


的 1/2”。 

该定理的结果显示，我们显然坷以做得更好。这主要是在该讨论过程中将股市向1序列简 
化为极端情形，每天只让其中的一只股票非0。如果确信针对这样的序列可以做得很好，那么我 
们可以保证对于任何股票 向貴序 列也可以做得很好。于是得到该定理的临界。 

在证明该定理之前，需要先给出如下引理。 

引理 16.7.1 对于任意/^，/^，…，与 …， qm 如， 


Sa 

-Li3 — 




A 

Qi 


(16-96) 


证 明：令 J 为使式 （16-%) 的右边达到最小的 *•, 并假设/>,>0(如果/>, = 0,那么引理显然成 
立）。同样，假设仍=0,那么式 (16-96) 两边都是无穷大，那么必然其他所有％也全为0,不等式 
显然成立。于是，我们假设仍>0,则 

S A _ .. 

(16*97) 




h 

Qi 


qi 




信息论与投资组合理论 


成立，由于 

h^h^h^a, 

9. 9/ Pi qi 

对于所有的 f 。 

首先对 rz = 1的情形进行讨论。第一天收盘时，资金为 

S ,( x ) = b r x 
S l ( x ) = b l x 

并且 


(16-98) 




(16-99) 

(16-100) 

(16-101) 


为了求解很自然的方 式是： 如果 f 最小，选择 x = e ,, 其中 e , 是 IT 中 的第* •个坐 
标轴的单位向觜。这样，问題转化为投资者如何选取6,使得该锒小值;^达到最大。选取6 = 


(士，…，士)必定是可以达到的。 

为了实现这一点，重要的是 


S n ( x r 

S n u 


TT ^ x , 

• _ 1 

iW ! 


(16-102) 


可以改写为如下的比值形式 

frx / “a 舰 

(16 - 103) 

其中 6, b , x '€*^ K 。 因此，恒定持仓比例投资组合 b 的 m ” 个成分可以写成形如的乘 
积形式。我们的目的是找到万能的6,使得一致地逼近恒定持仓比例投资组合 b 。 

现在我们可以证明该主要定理(定理16.7.1)。 

定理 16.7.1 的证明 ：仅对 //I =2的情形证明该定理。而对于 m >2的情形可以照搬。记这 
两只股票分别为1与2。其关键的思路是将时刻 n 的相对收益表示为 

S n ( x n ) = it ^ x , (16-104) 

由和的乘积形式转换成为乘积之和。和式中的每对应着在时刻 f 第一只或者第二只股紫的 
股价乘以比例屹或者6 <2 的序列，其中，该比例心或者6, 2 是在时刻/投资策略实施到股票1或者 
股票2的比例。因此，我们可以将相对收益 S „ 视为关于由股票1和股票2组成的所有2” 个可能 
的 n 长度序列的求和，其中每个 n 长度序列理解为投资组合比例乘以相应股价的 联乘： 

S n (x") = 2 n h n, 11 (16-105) 

/ €!l.2r * = • /€ 11.21 •… 

如果我们用 u ；(/) 表示乘积 ri 〜，即投资在序列上的全部的资金比例之和，再令 


(16-105) 


(/) = 


(16-106) 


为对应于该序列的回报，那么我们有 


( x n ) = S xv ( j n ) x ( j n ) 
/6 11.21- 


(16-107) 


分别对于最佳恒定持仓比例投资组合与万能投资组合采用 t 述表示，那么，我们得到 

S ： {x n ) 2 iv m (j n )x(j n ) 


(16-108) 


(16-110) 


其中是按照万能因果策略投资在序列尸上的资金总 fi ， 而是按照最佳恒定持仓比 

例策略投资在序列/上的资金总量。此时，应用引理16.7.1，我们有 

、 . w(,i n )x(j n ) u ； (j") inQ x 

c ；/ n \ ^ 而 11 ~= min — (16 - 109) 
S n (x n ) { xv (/)x(/) / ^ (j n ) 

于是，将比值 S ”/ S : 最大化的问题简化为确定万能策略投资在一系列股票上的资金比例是否一 
致逼近策略 b •的比例。至此已经能够明确了， S „ 的公式表示使得具有两只股票的 n 期的股票市 
场简化为一个特殊的具有2” 只股票的1期的市场。我们将 1^(/) 资金投人股票/,得到的回报 
是 x ( j n ), 而总的相对收 益氏为 ^ w ( j m ) x ( r ) o 

鼻 

我们首先计算关于最佳恒定持仓比例投资组合 V 的权重 切"（尸）。 为此，观察一个恒定持 
仓比例铒合 b , 这将导出 

w(n = ri ^ = b k u - br- k (16-no) 

I V I 

此处 A 是出现在序列 / 中 1 出现的次数。于是，仅依赖于々。将注意力集中到尸上，对6 
进行差分，可以发现关于6的最大值问题变成 

tf *0")= ( ggc i ^( l -6)"-* (16-111) 

=1?)* (宁 r (謂〉 

这是可达到的，只要取 

b - = (16-113) 

注意此时 2 u /(/)> l , 这反映出 ：“投 资”到尸上的资金 M 的选取是亊后诸 * S 亮式的。于是在不 
考虑事后诸葛亮的投资心态，他的资金配 H 加*(/)求和应该等于1。因果投资者没有那么高的 
奢望。那么，因果投资者如何依据所有可能的序列/■和事后诸葛决策议 •（/) 来选取初始投资 
= 1 保护自己？答案是，选择 xi (/) 与成比例。这样，即使在 © 坏的悄 
形之下，比值 xiKj ”）/ u /(/) 也是最大的。为了继续，我们定义如下 


(16-112) 


(16-113) 


= §(:) ⑼宁广 


并令 


W” ) = Vn (Tn^p (/ ) ⑽⑽ 

显然， zi ( j ”) 是关于这2” 只股票序列的合法资金分配（即，且= 1 )。所以， 

) 

是使成为概率密度函数的规范化因子。另外，再由式 （16-109) 与式（16-113)，对于所 


(16-114) 


(16-115) 


(16-116) 


有序列 


S n (x n )^ . u.(j") 


(16-117) 
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其中式（16-117〉由式 (16-109) 推出，而式 (16-119) 由式 (16-112) 推出。从而，我们有 


(16-118) 

(16-119) 



(16-120) 


于是，我们证明了在2” 只长度为的可能股票序列的一个投资组合达到了相对收益 S„(x”）， 与 


最佳恒定持仓比例组合策略的相对收益 S«：(x ”） 之比为因子= 为了完成该定理的证 
明，还需要证明这是最佳可能。也就是说，任何其他因果投资策略 bjx^ 1 ) 在最糈糕的情形（即， 
对于最差选择 x n ) 都不会超过因子％。为了证明这一点，我们构造一个极端股票市场序列集并 
证明任何因果投资组合策略至少关于一个这样的极端序列由 V„ 控制，并证明就是最糟糕情形 
的界。 


对于任何 11,21", 我们定义相应的极端股票市场向嫩序列 x”()”） 如下 


J(1,0V 

1(0,l) r 


当 


h 


(16-121) 


4*c l = (l,0) , ,e 2 =(0, D , 为标准坐标基向世，再令 

K .^\ x ( j n )： j n e 11，21” ,x v = e, I (16-122) 

为全部极端序列之集。此时，该集合的元素共计2” 个。并且对于每条这样的序列，每个时刻只 
有一只股票具有非0回报，而投资在另一只股栗的资金全部损失。因此，关于极端序列 x ”(/) 的 
投资到第《期收盘时的相对收益正好是投资在股费序列…,人上的相对收益的乘积。即 


S „( x ” (/ •)) = IT b t = Mj n )o 同样，也可以将其看作是在长度为”的序列上的投资，且回报率 
为0或1方式。此时，很容易看出对于任何极端序列，有 


Es b (x-0")) = 1 

而对于任何极端序列 x ” u ”) eK ：， 最佳 i 定持仓比例投资组合为 


(16-123) 


(16-124) 


其中， 〜(/) 与《 2 (尸)分别是序列/中出现1的次数。此时，到第”期收盘时的相对收益是 


广广 (16-125) 
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因此，由式 (16-126) 推出 

E = V* (16-126) 

此时，对于任意投资组合序列以及其对应的相对收益如同式 (16-104) 所定义的）, 


我们有下列不 等式: 


S n ( x n 


kS , 






S ； (x n ) Sji 1 


S s；(x") S ； (: 


U ' 


s；(xn 


(16-127) 

(16-128) 
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= (16 •㈣ 

= V n (16-130) 

其中不等式的得出是基于最小值必然不超过均值的基本事实。于是， 

max min -^ 7737 ^ ( 16-131 ) 口 

b *€icS n (x") 

定理中给出的策略重心着落在所有长度为 n 的序列上，因此依赖于 n 。 我们可以重新按照增 M 
来构造此策略(即，在时刻1用买人股票1与2的股票来刻画)。此时，基于在时刻1的结果，决定 
时刻2买人两只股票的数8。如此下去。在时刻在已知此前的股票向 M 序列 X * _1 的条件下，通过 
算法给出分配到股票1的资金 权重& lt > 通过对所有在第: • 个位置为1的序列/求和如下 

E Mr l \)x(r l ) 

M ^ 1 ) = % ，•二、 一 (16-132) 


其中 


是从/开始投资所有序列/的权重，而 


/€从 


(/) = E / 


(16-132) 


■ rO '" 1 ) = n ^*> 4 

是投资在这些序列上的回报(其定义见式(16-106))。 

V B 的渐近性研究可以査阅 [401, 496], 对于 m 种资产，其近似结果为 


(16-133) 


(16-134) 


特别当资产数 m =2时，有 


以及 


V "〜 (V?T ，r(w/2)/v ^ 
v -~V5 




(16-135) 


(16-136) 


(16-137) 


(16-138) 


对所有 n 成立 [400]。 从而，对于 m =2 只股票的情形，由式 （16-132) 给出的因果投资策略 
6,( X 1-1 )达到的相对收益 S „(: r ”） 对于任何市场序列/均满足 

(16 - 138) 

16.7.2 无限期万能投资组合 

我们将使用不同投资组合策略的加权来刻画无限期策略。正如前面叙述过的，每一个恒定 
持仓比例投资组合 b 可以看成是一个共同基金按照 b 管理 m 只股票。在起初，我们将全部资金 
_ 按照分布 //( b ) 分配到每只子基金。令 db 为恒定持仓比例投资组合 b 的一个邻域，再令如 ( b ) 为 
_按照该邻域中的投资组合所投资出去的资金总量。 

令 

SAb,x n ) = IT b^x, 


( 16 - 139 ) 
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为恒定持仓比例投资组合 b 在股票序列 x n 上产生的相对收益。回顾前面所讲的结论 

S ； (x") = n^cS B (b,x n ) 

是事后诸葛亮式的最佳恒定持仓比例投资组合的相对收益。 

我们研究如下定义的因果投资组合 


(16-140) 




我们注意如下等式 




J^bSJb’xOcMb) 

J e S,(b,xOd^(b) 

[ e b ， x, +1 S,(b ， x*>d/i(b) 
J B _ 

o S,(b,x , )d^(b) 

J D 

f S,(b,x , )d / i(b) 


(16-141) 


(16-142) 


(16-143) 


(16-145) 


(16-146) 


于是，透过乘积 ITRx , 望远镜我们看到基于该因果投资组合的相对收益 S „( x ”） 为 

S n ( x n ) = (16-144) 

<•1 

= [ S „( b , x n ) d ^( b ) (16-145) 

J 6€fi 

对于等式 (16-145), 还有另外一种解释。 +( b ) 解释为分配给投资组合经理 b 的资金总 JB , 

那么 S ( b , x ”） 则解释为基金经理遵照投资组合 b 所产生的增长因子，于是本投资期的全部相对收 
益就是 

S B ( x "> = | B S n ( b f x ") d / i ( b ) (16-146) 

此时， 6 | + 1 (如式 (16-141) 所定义的)是单个投资组合经理 b 的所有“下单”的加权表现。 [639] 

至此，我们还没有将用来分配资金比例的分布 ； i ( b ) 有个具体交代。现在选取一个分布户， 

使得我们的投资效果接近于基于股价向置的真实分布所得的最佳投资组合的效果。 

在下面的引理中，我们将给出比 值义 / S 〗 的下界，它是关于初始资金分布 //( b ) 的函数。 

引理 16.7.2 令式 （16-140) 中的 S :( x ”） 为最佳恒定持仓比 例投资 组合达到的相对收益，而 
令式 （16-144) 中的 S „( x ”） 为万能洮合投资组合 6 (.) 达到的相对收益定义如下 

fbS ,( b , x ，) d / i ( b ) 

6 „,( x ') = 7 - (16-147) 

a 


(X')= 


(16-147) 


那么 


s “ x ”) > • J g n^ (b) 

•-1 ' 

证明：如前面所述，我们可以改写 

S ；( x ") = Sit - # (/) x (/) 


(16-148) 


(16-149) 



364 


第 J 6 章 


640 


641 


其中《^(尸）=是投资在序列尸上的资金总量，而: r ()”） = q 是对应的回报。同样, 

我们还可以改写 m ^ 

S n (x n ) = | II b r x f d^(b) 

= sjll ^x f> d/i(b) 

/ i=, 

= S ^( y ") x (/) 

M 

9 

其中 i (/) = ffl 6 ； d^(b ) 0 此时，运用引理 16.7.1， 我们可以得到 

1 

>^ Ti *0") x (/) 


(16-150) 

(16-151) 

(16-152) 


L ( x * 


S ：( x n ) " ^ w u ( Dx ( j m ) 

^ . TL ( i n ) x ( r ) 
多 min 


(16-153) 


(16-154) 

(16-155 )D 


•(/) x (/) 

1 ell ^ d ^( b ) 

= min -'"l-' - 

'• [\ b ； 

接下来，假设〆 b) 服从狄利克雷分布 (Dirichletg), 我们将运用该引理。 

定理 16.7.2 当 m =2 只股票时，对于式 （16-141) 给出的因果万能投资组合 5,(), / = 1， 

2,…，如果如 ( b ) 服从 Dirichkt ( i *，+) 分布，那么对于任意”以及任意股票序列 X ”，均有 

M ) > 1 

s ；( x ")^2 v^rn 

证明： 如前面式 （16-112) 所讨论的那样，我们河以证明 M 佳恒定持仓比例投资组合^投资 
在序列/上的比重为 

][ b ； = (+/( 2 ^厂* = 2- (16-156) 

其中， A 是下标),=1的数目。如果密度函数取为 Diri C hlet (+), 我们仍然能够解析地计算出引 
理 16.7.2 的式 (16-148) 中的右边分子项的积分。此时，对于 m 个变 M 的情形定义 

r(f) 


d ^( b ) 


Wi)] 


n b-Ub 


(16-157) 


其中 ru ) = rVv M df 是伽马函数。为了简单起见，我们仅考虑两只股票的情形，此时， 
Jo 


d / i (6) = 


db 0<6<1 


(16-158) 


V b ) 

此处的办是指分配到股票 1 的资金比例。下面针对任意序列/€11，21”，考虑投资在该序列的资金总量, 

b ( j ”) = t [\ = b l (\ - b) n ~ l (16-159) 

其中/是下标乂 = 1的数目。于是 ' 

|6(/) d / i ( b ) = j ^ d -6) 


Vb(l - 6) 


db 


(16-160) 
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=士 JW (1 - 6)"- / -2 d 6 
+ 士，《-/ + {) 

此处的！3(^，/1 2 )为/?函数，其定义如下 

B(A,,A 2 ) 0(l-*r)VicLr 

^ r ( A t ) r ( A 2 ) 

r ( A | + A2 ) 

以及 

HA ) = J da 


(16-161) 

(16-162) 

(16-163) 

(16-164) 

(16-165) 


注意，对于任意整数《，有 ru + i ) = w ! 以及 r (”十+ ) = 

利用分部积分递推公式，或者等价地，利用式 U 6-164), 我们可以计算出 

B ( /+ i ■，” _ /+ 音)如下 




w 


将这些结果与引理 16.7.2 结合，我们可得 


>%(x w ) 、 . JB ； 


Ln 峽 ( b ) 





>(卜如”- /+ 1) 

2* nIHI/n) 


(16-166) 


(16-167) 


(16-168) 


. (16 - 169) 

将该结果用到 [135] 的定理 2 中，则得到定理的证明。 □ 

由此可以推出对于 m =2只股票的情形时，对于所有 W 以及所有市场序列 XhA ，…， 


均有 



(16-170) 


即，对于 一切〜 好的最小最大投资组合的表现与固定基准的最小最大投资组合相比较，•至多值 
一个超额因子 vTtt 。 h 解释为万能投资组合的成本，在下面公式的意义下，这种成本是可以渐 


近忽略掉的。 


丄 lnS” （ x ”） 一丄 lrKS"-(x”)>lln|—0 (16-171) 

n n n v 2n 

因此，该万能因果投资组合与最佳事后诸葛亮式投资组合具有相同的渐近增长率。 

让我们来考虑该投资组合算法如何针对两只真实的股票进行操作。我们选取道琼斯指数的 
两只指 标股： Hewlett - Packard 与 Altria (原名 Phillip Morris )。 观察周期为14年（截至2004年）。 
在这14•年中， HP 上涨了 11.8 倍，而 Altria 上涨了 11.5 倍。关于这两只股票的不同的恒定持仓 
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比例投资组合的相对收益如图 16-2 所示。而最佳恒定持仓比例投资组合（这只能事后才能计算 
出来）的增长因子为 18.7, 这是按 HP 占51%与 Altria 占49%的比例组合而得。本节所描述的万 
能投资组合在没有任何先验知识的情况下，所达到的增长因子依然高达15.7。 
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16.8 Shannon - McMillan-Breiman 定理(广义渐近均分性质） 

遍历过程的渐近均分性质 ( AEP ) 已经以 Shanrum-McMUUm-Breiman 定理而著名。在第3章 
中，我们曾经证明了独立同分布信源的 AEP ， 本节我们给出更为一般的遍历信源定理的证明。利 

用两个遍历序列三明治，将夹在中间证明它的收敛性„ 

从某种意义上讲，遍历过程是使得强大数定律成立的最为一般的相关过程了。对于有限字 
母表过程，遍历性等价于所有 A - 阶经验分布收敛于他们的边际分布。 

严格的定义潘要涉及概率论中的一些概念。具体讲，一个遍历的信源必须定义在一个槪率空 
间 (0,6 ,尸 ） 上，其中 S 是0的一些子集组成的 ex 代数，而尸是槪率测度。一个随机变 M X 定义 
在概率空间 n 上的函数我们还可以定义概率空间自身之间的变换 r ： o - n , 它的 
作用可看成是时间推移。如果对于任意 A € S , 均有 P ( TA ) = P ( A ), 那么称变换丁是平稳的。 
如果任何一个满足条件 TA = A (几乎处处）的集合 A 只能是 P ( A )=0 或者尸 ( A ) = l , 则称该变 
换： T 是遍历的。如果： T 既是平稳的又是遍历的，则称以 X n ( o ；) = X (： ra ；) 的方式定义的过程为 
平稳遍历过程。对于平稳遍历信源 • 伯 克霍夫 ( Birkhoff ) 遍历定理指出 

士 S X ,( a ；) -^£X = JxdP 依概率 1 成立 （16-172) 

于是，大数定律对于遍历过程依然成立。 

我们希望利用遍历定理导出如下结果 

- -i-Iog/»(X 0 ,X,, — ,X„_i) =- 士(不 I X^ 1 ) 

n 71 ,-o 

[- logpCXjX ?- 1 )] (16-173) 

但要注意的是，随机序列 MX , IXjT 1 ) 不是遍历的，而与之紧密相关的量和 p ( X f | 
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x^_i> 是遍历的，且很容易发现它们的期望与熵率等同。由此，我们打箅将 pujxir 1 ) 夹人这 
两个更容易处理的过程之间。 

我们定义 々阶墒 硭为 

bt = E \ - \ ogp ( X k \ X k ^, X k . 29 - t X 0 )\ (16-174) 


= £|-log/>(X 0 IX- 1 > X. 2 ,-,X.*)| 
其中最后一个方程是由平稳性推出的。回忆一下熵率的定义 

H =lim H* 




(16-175) 


(16-176) 


(16-177) 


显然，由平稳性以及加人条件使熵减小的事实可知而 = 对于最终获得定理证 

明是至关重要的，其中 

H°° = £：|-log/)U 0 |X_ 卜 X- 2 , …）| (16-178) 

等式 H 00 的证明涉及到期望与极限次序的交换性。 

Shannon-McMillan-Breiman 的证明过程的主要思路可以追_到按（条件）比例博弈的思路 。一 
个股民如果已知道过去的 A 个时刻的信息，那么他的资金增长率将是 logl^l- H*, 而如果他知 
道所有过去信息的话，那么他的资金增长率将是 log|Y| -/T 9 。 我们虽然小清楚当股民知道过去 
的 XS 的信息时资金增长率将如何变化，但它必然夹在 ^oglYI-H^bgl^l-fT 之间。由于 
于是三明治两边重合，从而可知增长率 ilog|i|-f/。 

我们接下来将通过几个引理来导出定理的证明过程。 

定理 16.8.UAEP: Shannon - McMillan-Breiman 定理） 如果 H 是有限值平稳遍 历过租 I X n I 
的 熵率， 那么 

-^]og/,(X 0 ,-,X n ,)-H 依槪率 1 成立 (16-179) 

证明： 我们 仅对/ 为有限字母表的情形进行证明。该证明过程以及针对可数字母表且密度已 
知的情形的证明过程可见 Algoct 与 Cover[20]。 如果我们能够说明对任意的々>0,随机变 里序列 

-士!^〆：^- 1 )渐近地处于上界 H 与下界 /T 之间，则由以及/^° =只便可得到 AEP。 
对于所有 n > k t 关于概率的々阶马尔可夫逼近定义为 


由引理 16.8.3, 可得 


/ ^(X；- 1 ) = p ( X k 0 l )\\ p ( X i I XU) 




考虑到极限 liin^bg/>*OCS) 的存在性(见引理 16.8.1), 我们可将式 U6-181) 改写为 

l ^ p i ,og TuT 7 ) = H * 

对所有 A = l,2, …成立。同理，由引理 16.8.3, 我们还可以得到 

1. 々 (XT 1 ) 

同利用引理 16.8.1 中 H 00 的定义，上式坷以改写为 


(16-182) 


(16-183) 
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(16-180) [645 


(16-181) 



(16-184) 


lim inf 士 log M^ >lim i log P(XS-MX：L) = ffTO 

将式 （16-182) 与式 (16-184) 联合，我们可得 

inf - ~^log/)(X^ 1 Xlim sup-^-logpCXo' 1 ) 

<H * 对任意的 A 均成立 (16-185) 

再由引理 16.8.2, 可知 H*—= 从而得到 

lim- 丄 logp(XS) = H (16-186)D 

n 

接下来我们补证所有在定理的证明过程中用到的引理。第一个引理要用到遍历定理。 

引理 16.8.1( 马尔可夫逼近）对平稳遍历的随机过程 1 X „| ， 我们有 

-丄 依概率 1 (16-187) 

n 

--ilogptXSMXZU-H 00 依槪率 1 (16-188) 

n 

证明： 由于遍历过程 ixj 的函数 y n = /(X"_oo) 仍然是遍历的过程。于是， MXJXT- 1 *) 以 
SDogpiXjX ^ x . X ^-) 也是遍历过程 • 且由遍历定理可知 

-丄 log/^XS-i ) =-丄 log/KX*。-，）- 士 I d) (16-189) 

n V 71 *-* 

-O+rf 依槪率 1 成立 （16-190) 

类似地，由遍历定理也可以得到 

-丄 logpm- 1 I H 2 , …)=-士 SlogpU. I U_ 2 , …〉 (16-191) 

n n 

—fT 依概率 1 成立 （16-192)口 

引理 16.8.2( 无缝咪〉 = 

证明： 对于平稳过程我们知道所以只需证明 f / VT , 就可得到 = 由关于条 

件槪率的 Levy 鞅收敛定理可知，对于任意的 xoGi， 有 

p(x 0 IX：J)-/>(x 0 lX：L ) 依概率 1 成立 •• （16-193) 


由于 Y 为有限集合且 plogp 关于/为有界连续函数，则由有界控制收敛定理，可以将 
极限符号与期望运算交换次序，从而得到 


limH* 

*-«» 

= lim£ | - />(x 0 1 XlJ)log/»(x 0 1 \ 

(16-194) 


=£|- S M 工0 1 X ： lo ) logp ( x 0 1 X ： L )| 

(16-195) 



(16-1%) 

于是， 

• 

□ 

引理 16.8.3( 三明治） 


(16-197) 


1 p ( Xi ~ l ) 

lans ^ P n [og p ( Xl - l \ XZl )^° 

(16-198) 


证明： 令 A 为 / KXS — 1 ). 的支撑集，则 
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P ( W 1 ) 


= E / W 1 ) 


= /^( A ) 

<1 

类似地，令 B ( x : L ) 为 />(.| X : L ) 的支撑集，则有 

小 i^bM] 

= £ L- e S ： i ， P(^fxzL) pu " 1 x 

=E[ S pu m )] 

x *€ B ( X ；|.) 

<1 

再由马尔可夫不等式以及式 (16-202), 我们有 • 

或者 

Pr !» log 7w i： )^ log, -Ni 

取~ = n 2 并且注意到2七 < oo ，由 Borel - CanteUi 引理，可知亊件 

ln 1 ° g 7 ^ > » IOgt "l 

以概率1仅发生有限多个。于是， 

• lim sup log ~^^ ryy <0 依槪率 1 成立 

利用马尔可夫不等式，将相同的讨论应用于式 (16-206), 我们可得 

一士 以輪) < 0 依概率 1 成立 

引理得证。 


(16-199) 

(16-200) 

(16-201) 

(16-202) 


(16-203) 


(16-204) 

(16-205) 

(16-206) 


(16-207) 


(16-208) 


(16-209) 


(16-210) 


(16-211) 


证明过程中的论证方法吋以推广到股票市场的 AEP 的证明中去（定理16.5.3)。 

要点 

增长車股票市场中的投资组合 b 关于分布 FU ) 的增长♦定义为 

W(b,F) = Jlogb^KiFtx) = E(fagyx) (16-212) 

对数最优投资组合关于分布 F (*> 的最优增长率为 

W*(F) = msxW(b 9 F) (16-213) 

使得 W ( b , F ) 达到最大值的投资组合 K 称为对教最优投资纽合。 

凹性 W ( b ， F > 关于 b 是凹函数而关于 F 是线性的，但 W ( F ) 关于 F 是凸函数。 
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-- . . . . . . ^ 

祖 ■ •龜 ■氬 • ■ •翁 

最优化条件投资组合 b" 

是对数最优化的当且仅当 




E (b^x) = 1 如果乂 




<1 如果 

(16-214) 

期望比值最优性 

如果 s: = rtvu, = n«x •，則有 

(■1 <•* 




e|^<1 当且仅当 £ln^<0 

(16-215) 

增长率 (AEP) 


~logS； —W*(F ) 依橇率1成立 
n 

(16-216) 

漸近最优性 


lim^sup-^-log~r<0 依概率 1 成立 

(16-217) 

错误倍悤当/是真实分布但相信《为真时，所导致的损失为 

△W= W(b} ,F)- W(b ； ,F)<D(/II g) 

(16-218) 

边信息 Y 


AW</(X;V) 

(16-219) 

链式法则 

W(X i !X 1 ,X 2 ,-,X 1 - 1 )= kr max EloghfX, 

•‘《VV ••篦 . 

(16-220) 


vv(x,,X 2 ， -,x n ) = S w m ( x , i Xi ， x 2 •…， D 

#35 

(16-221) 

平稳市场的增长率 

w-=. im w，(x " x --* x " ) 

(16-222) 



|logS: — W 二 

(16-223) 

:;对数最优投资组合的竞争最优性 




? r ( VS > U m S m )<\ 

(16-224) 

万能投资组合 


. 'ff: 

• \r 

max min'' . v n 

《㈠ ■、Hb、 

i^X 

(16-225) 

其中 




• 

v.= 

S l :… )2 ‘，.. •叫 

篱广… \ 7Z | » Tlj f f § 

S-226) 

对于 m =2, 


V n — V 2 /m 

(16-227) 

因果万能投资组合为 






信息论与投资组合理论 


6 , 0( x0 = 


bS,(b,^)d^(b) 
|s,(b,*0 如 (b) 


对于所有《与》",可达到 


1 

s ： (r)^2V^Ti 


若 I 足 I 是平稳遍历过程，則 


-士 logpUl , A ,.", 依概率 1 成立 


(16-228) 


(16-229) 


(16-230) 


习题 

16.1 增长率 。设 

1(1^), 槪率为1々 
~ klA / a ), 槪率为 1/2 

其中 fl > l 。 该向 ft 代表的是只有现金与一只股栗组成的简化证券市场向量。令 

W ( b , F ) = E log b r X 

以及 

W m = maxW ( b f F ) 

是增长率。 ' 

( a ) 求出对数 M 优投资组合 

( b ) 求出增长率 

( c ) 求 S „ = b % 关于所有 b 的渐近行为。 

卜 1 

16.2 边信息。在习题 16.1 中，假设 

= fl, ^(X l 9 X 2 )X\A) 

Y = lo , 当(；^,久 2 )<(1，1) 

假定投资组合 b 依赖于 Y ， 求出新的增长率 W m \ 并验证 △”= W W 满足 

aw </( x ； v ) 

16.3 股票市场 。考虑特殊的股票市场向 M 

X =( X If X 2 ) 

假定 X 1 = 2 的概率为1。于是，投资在第一只股票上收盘时就会翻倍。 

( a ) 找出关于股票 X 2 的分布使得关于该分布的最优投资组合 IT 恰为将所有资金投人到股 
票 X 2 的投资决策 b ' = (0,1) 的充要条件。 

( b ) 对于 X 2 的任意分布，讨论增长率满足。 

16.4 包括专家与共同基金。令 X 〜 F ( x ), x €7?? 是一个股票市场的相对价格向量。假设一个 
“专家”建议投资组合 h 这将产生相对收益 b f X 。 我们把它加到股票向量中形成 
X =( X I , X 2 ,-, X mf b f X ) 0 证明新增长率， 


* 

• = max 
V … 


ln(b’x)dF(x) 


(16-231) 


等于旧的增长率， 


W * = ^max Jln ( b r x ) dF ( x ) (16-232) 

16.5 对称分布的增长率。 考虑股票向量 X 〜 F ( x ), X € TCT , X >0, 其中，股票分量是可交换的。 
于是，对所有的置换 ( T , 有 F (: T ! ，: T 2 , …,⑴,，… 

( a ) 找出使增长率最优化的投资组合 IT 并确立其最优性。现假设 X 已经规范化，使得 
J - Sx , = 1,且如前所述， F 是对称的。 

m .*i 

( b ) 假设 X 是标准化的，证明所有的对称分布 F 关于 b " 有相同的增长率。 

( c ) 找出这个增长率。 

16.6 凸性。 我们对产生相同投资组合的股票市场密度的集合有兴趣。/\是咒？上所有概率密度 

集合中 hb 最优的。于是，& = \ pU ):\\ n ( b l x ) pU ) dx \ 3 b = ho 时取得最大值。证明 
是-•个凸集。使用定理 16.2.2 会有帮助。 

16.7 卖空 。令 

(1.2) p 
(1々） 

再令 B = i (~， 62 ): 6 ^ + 62 = 11 。于是，投资组合集合 B 不包括约束 6 , > 0 ( 这就是允许卖 
[653] 空) 。 

( a ) 求出对数 Jft 优投资组合 b # ( p)o 

( b ) 导出增长率 (/>> 与熵率 f /(/0 的关联性。 

16.8 规范化 X 。假如将对数 M 优投资组合 b •定义为使得相对增长率 

Jin b /- -dF(x lf — f x m ) 

- S '* 

达到最大值的投资组合 V 。那么规范化丄^：^的优点是使相对增饫率有限，即使在增长 

m 

率 Jin 以 rdF ( x ) 无界的情形也是如此，其可以视为按照均匀投资组合的相对收益。例如, 

当 X 服从 Petersburg 型分布时便是这样。于是，对数最优投资组合 b •是针对所有分布 F ， 
即使它们出现了增长率 W ( F ) 无穷的情况。 

( a ) 如果 b 使得 Jln ( b f X ) dFU ) 最大，那么也必然使最大。其中 u = 

(士，士，…，士)。 

( b ) 对于 

X = W ,22. 

求出对数最优投资组合 b 、 

( c ) 求£乂以及 W 

( d ) 讨论在 PrWX > d )" Xl <+ 的意义下， b •是竞争地强于任何其他投资组合 b 。 
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16.9 


万能投资组合。 对于 m =2 只股票且 / i (6) 是均匀分布的情形，检验 16.7.2 节中的万能投 
资组合的推理中的前两步 （ n = 2)。令第一和第二个交易日的股票向贵分别为 

〜=(1，+)和》 2 = (1，2)，又令 b = (6,1 - 6) 为一投资组合。 

( a ) 画出 S 2 ( b ) = fl b r x ,，0<6 <l 的图形。 

• = 1 

( b ) 计算 S ; 

( c ) 讨论 bgS 2 ( b ) 是关于 b 的凹函数。 

( d ) 计箅(万能)相对收益 S 2 = £ s 2 ( b ) db 0 

( e ) 万能投资组合在次数《 = 1与《 =2 时为： 

6 i = I bdb 

J o 

| bS ,( b)db 
62(A) = -fi - 

S ,( b)db 

J o 


计算它们的值。 
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(0 如果我们 B 换两只股粟序列出现的次序，即，如果序列变成 （1,2) 和那么 S 2 
( b ), S 2 \ S 2 , 62 中哪些是不变*? 

16.10 增长最优 。令为两只独立的股県的相对价格。假设 EX ,>£ X 2 , 那么你是否 
认为&的增长率总是会优于投资组合 S ( b ) = 6 X , + 6 X 2 ? 证明或举反例。 

16.11 万能性的代价。 在有限期的万能投资组合的讨论中，由于万能性的歴因导致的折扣因子 

女=§(:)⑼宁 r ⑽摘 

对于 r » = 1,2,3,分别估计 V „。 

16.12 凸的随机变量族 3 这是推广定理 16.2.2 的问题 u 我们说一个随机变贵族占是凸的，是指 
对任意 ShSfS ， 以及任意 0< A <1, 均有令5是一个闭的随机变 
.敎的凸族。证明存在一个随机变 tt 使得对于任意均有 

£ ln (多) <0 (16-234) 

等价于对于任意均有 

£( 表)<1 (16-235) 


历史回顾 


介绍利用均值-方差分析法进行股票市场投资的文献相当多，其中 Sharpe 的专著 [491 ] 是一 
本很好的入门书。对数最优投资组合是 Kelly [308] 和 Latanc [346] 引人的，后来 Breiman [75] 
对此进行了推广。使用互信息给出增长率的不等式是由 Barron 与 Cover [31] 中的工作。 


luelson 在文献[453, 454] 中给出了对数最优投资理论的临界。 

对数最优投资组合的竞争最优性的证明是由 Bell 与 Cover 在文献 [39, 40] 中给出的。 
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Breiman 在文献 [75] 中验证了随机市场过程的渐近最优性。 

渐近均分性质是香农引人的。但是，股票市场的渐近均分性质以及对数最优投资的渐近最优 
性是由 Algoet 和 Cover 在文献 [21] 中给出的。对于渐近均分性质的相对简洁的三明治证明方法 
也是 Algoet 和 Cover 在文献 [20] 给出的。对于实值的遍历过程的渐近均分性质的证明是 Banon 
[34] 和 Orey [402] 给出的，其方法具有一般性。 

万能投资组合的概念是 Cover 在文献 [110] 中提出的，并且对于万能性的证明也是在该文献 
中一并给出的。但更精确的证明则是在文献 Cover 与 OrdemlichtUS ] 中。对于固定长度的情形， 
万能性 的代价 V „ 的精确计算在 Ordentlich 与 Cover 的文献 [401] 中。 该量 也在没 uarkov 的关 
6561于数据压缩的著作 [496] 中出现。 





第 17 章信息论中的不等式 


本章总结和整理了出现于全书中的不等式。同时，阐述一些新的不等式，如有关子集的熵率 
以及熵与 L p 范数之间的关系。费希尔信息与熵之间存在着紧密的联系，这集中体现在熵幂不等 
式和布伦-闵可夫斯基不等式 (BrumvMinkowski inequality ) 具有一个共同的证明方法。另外，信 
息论中的不等式与其他数学分支 (如矩 阵论和概率论中的不等式)具有众多的相似之处。 


17.1 倍息论中的基本不等式 


信息论中的许多基本不等式均是可以由凸性直接得到的。 

定义如果对任意的 0<A<1, 以及 /的一 个凸邻域内的任意: ^ 和 0： 2 , 满足 

/(Aj：i + (1 - A)x 2 XA/(j ： i) + (1 - A)/(x 2 ) (17-1) 

称函数/是凸的。 

定理17.1.1(定理2.6.2 : >03€11不等式）如果/是凸的，則 

f ( EX )< Ef ( X ) (17-2) 

引理 17.1.1 函数 logx 为凹函數，而 jrlogj ■是凸函數 • 其中 0< j :<«>。 

定理 17.1.2( 定理 2.7.1: 对数求和不等式）对于正數 a lt a 2 t -, a n 和 bi ， b 2 , …， b ”， 

ta , 

(17-3) 


^ a.log > ( i ] a , )log 

t-1 i-1 


其中当且仅当$=常数等号成立。 

Oi 

由 2.1 节可知，熵有如下性质。 

定义离散型随机变的熵 H ( X ) 定义为 

H ( X ) =- 2 p ( x )\ ogp ( x ) (17-4) 

定理 17.1.3( 引理 2.1.1、 定理 2.6.4: 熵 的界〉 

0< H ( X )< logl ^| (17-5) 

定理 17.1.4( 定理 2.6.5: 条件作用使熵减小）对任意两个随 机变量 X 和 y , 

H ( X | V )< H ( X ) (17-6) 

其中当且仅当 X 和 y 独立等号成立。 

定理 17.1.5( 定理 2.5.1 及定理 2.6.6: 链式法則） 

H ( X If X 2 ,-, X n ) = Eh ( X , I X i . 1 ,-, X 1 )< EH ( X | .) (17-7) 

•-■I i m l 

其中当且仅当 x ,, x 2 ,-, x n 相互独立等号成立。 

定理 17.16( 定理 2.7.3) H (/>) 是关于 户的凹 函数。 

下面我们陈述相对熵和互信息的某些性质 (2.3 节）： 

定义两个概率密度函数 />( i ) 和 g (* r ) 之间的相对熵或 Kullback - Leibler 矩离定义为 

D(p II q ) = (17-8) 




658 



376 


第 27 聿 


659 


定义两个随机变量 x 和 y 间的 互信息 定义为 


I(X; Y) = 2 S p(x,y)\og = D(p(x,y) || p(x)p(y)) (17-9) 

以下这个基本的信 i 不 4 式可用来证明本章中许多其他的不等式。 

定理 17.1.7( 定理 2. 6 . 3: 信息不等式）对任意的两个概车密度函数/>和心 

D(p\\q)^0 (17-10) 

其 中当且仅当对任意的等号成立。 

推论 对任意两个随 机变量 x 和 y . 


HX ； Y) = D(pU,y) II P(x)p(y))^0 (17-11) 

其中当且仅当 p(x, ： y) = />U)/>( ： y) (即 X 与 y 相互独立）等号成立。 

定理 17.1.8( 定理 2.7. 2: 相对熵的凸性） D(/>|| <?) 关于二元对是凸函数。 

定理 17.1.9( 定理 2.4.1) 


/(X 

y) = H(x)-H(x|y) 

(17-12) 

/(X 

y) = H(y)-H(y|x) 

07-13) 

/(X 

y) = H(x) + H(y)-H(x,y) 

(17-14) 

/(X 

X) = H(X) 

(17-15) 


定理 17.1.10(4.4 节）对于一个马尔可 夫裢： 

1. 相对熇 D (/ i rt II //«)随时间递戒。 

2. 一个分布和平穂分布间的相对熵 D(^ n II / i ) 随时间递减。 

3. 如果平稳分布是均匀分布，那么熵 H ( X „〉 递增。 

4. 对于平穗马尔可夫键，条件熵随时间递增。 

定理 17.1.11 设 XhX 2 , … ，尤为 i . i . d .- p ( x ), Pn ^ X 1 , X 2 ,-, X n 的经验概率密度函 
数，則 

EDCp n WpXEDCPn - xWp ) 07-16) 


17.2 微分熵 

现在来回顾一下微分熵的一些基本性质 (8.1 节）。 

定义微分熵 / i ( X M x 2 , …，； o 有时记成/ *(/), 定义为 

h ( X lt X 2 r -, X n ) =-J/(x)log/(x)dx (17-17) 

许多常见的密度函数的微分熵安排在表 17-1 中。 

定义概率密度函数/和 g 之间的相对熵为 

0(/11 g) = j/(x)log(/(x)/g(x))dx (17-18) 

连续情形下相对熵的性质与离散情形是相同的。但另一方面，微分熵具有某些不同于离散 
熵的性质。例如，微分熵可能为负值。 

下面我们重述的是对于微分熵情形仍然成立的其中几个定理。 

定理 17.2. U 定理 8.6.1: 条件作用使熵戒少） h ( XlY )< h ( X) f 其中当且仅当 X 与 Y 相 
互独立等号成立。 

定理 17.2.2( 定理 8 .6. 2: 链式 法則） 

h ( X 、， X 2 ， … ， X ”） 二 •丨 (17-19) 
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/?分布 





柯西分布 




I^^SBEBBHi 


埃尔朗 

(Erlang ： 

分布 


栴数分布 




：g I 

B5SSES3 


- H 1 — 号 W 号) 


1 - ”)0( n ) + In 






4 B ( f . f )+( i - f )，( f ) 

_(卜扑(扑宁分(宁) 


逻辑斯谛 




对数正态 
分布 





麦克斯韦- 
玻尔兹曼 
分布 
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(续） 



■ 


熵值 ( 奈特） 

ISO 



/U) = ^ e - 彡， x t b>0 


1 

学生 r 
分布 





三角分布 

fUX 


y-ln2 

均匀分布 


In (芦 -a) 

韦布尔 

(Weibull) 

分布 

= t, x,c,a>0 

c c 


662| 注：表中所列的熵的单位均为奈特；其中 r ( z > = y 为欧拉常数 = 0.577 215 66… 

定理 17.2.3( 定理 8.6.5) 设随机向量 X € R n 均值为零，协方差阵为 K = ，即 K (> = 
EX&J<i ， j<n 0 则 

/ i ( X )<^! og (27 re )"| K | (17-20) 

其中当且仅当 X 〜 AT (0 ,/O 等号成立。 


17.3 熵与相对熵的界 


在本节中，我们将 重温有 关熵函数的一些界。其中最有用的是费诺不等式，因为当编码速率 
大于信道容 M 时，由此不等式，可以估计出一个通信信道的最佳译码器的误差概率将远远偏 

离零。 

定理 17.3.1( 定理 2.10.1: 费诺不等式）给定两个随机变量 X 和令又 = ^( y ) 为在已知 
信息 y 的条件下 X 的估计。又令 P , = Pr(X 关 X )为误差概芈，那么 

H(Pj + P , log |^|^ H ( Xl ) f )^ H ( X | y ) (17-21) 

从而，如果 H ( XIY )>0, « P e >0 o 
下面的引理给出了一个类似的结果。 

引理 17.3.1( 引理 2.10.1) 如果 X 与； T 是独立同分布的，且熵为 H ( X ) 

PKX = X ， »2- H(x) (17-22) 

当且仅当 X 是均匀分布等号成立。 

对于连续型，类似的费诺不等式则是以估计子的均方误差为上界。 

定理 17.3.2( 定理 8.6.6) 令 X 为随机变量，其微分熵为 hd 再令又为 X 的估计且 
£：(久-又) 2 误差期望值，那么 

E ( X - X ) 2 >^ iX) (17-23) 

当边信息 y 以及估计 X ( y ) 给定时， 

E(X-X(Y)) 2 ^e 2MX|y) 


(17-24) 
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定理 17.3.3( 熵的界）设 /> 和均是 i 上的概率密度函數，且满足 


P - Q W i = 2 • />( 工）一 9( 工 ） y 


(17-25) 


I II ilog 


P-Q I 


(17-26) 


证明： 考虑如图 17-1 所示的函数 / U )= -dogr 。 通过微分可以验证/(.)为凹函数。且 
/(0) = /(1)=0。因此，函数在0与1之间为正值。考虑函数从£到^ + 7；的弦(其中在 

端点（即当〖=0或 1- v 时)处，弦的斜率的绝对值 达到鏺 大值。因此，对于我们有 

\ fit) - f(t x;) l^max|/(x;),/(l - v)| = - v\ogv (17-27) 

令 rU )=|/>(: r )-( 7 (: r )|, 则有 

\H(p) - H(q)\ = I 2 p(x)\ogp(x) + ^(ar)log 9 (j：)) I (17-28) 

< S I (- p(x)\ogp(x) + ^(x)log 9 (j：)) I (17-29) 


< 2 - r(x)logr(x) 

= 11 p " 911 'S' ii p { -1 ii ii p- x l ii. 11 ^ - 911 ■ 
= 一 ii 广一 9 ii liogii ii i+ ii />-9 ii || r p ^|| J 


<-II /) - 9 II ilogll /» - 9 || ! + II /» - 9 II llogl^l 

其中式 (17-30) 可由式 (17-27) 推出。 

最后，在下面的意义下，相对熵强于范数。 

AD ^- t\tu 



(17-28) 

(17-29) 

(17-30) 

(17-31) 

(17-32) 

(17-33) 

□ 


图 17-1 函数 /(r)=-flnf 


引理 17.3.2( 引理 11.6.1) 

D( Pl II Pi)>2bi 11 p ^ pl 11 ' (17_34) 

当 P = Q 时，两个概率密度函数 P (： r ) 和 Q (: r ) 间的相对熵是 0 n 围绕这点来看，相对熵有 
一个二次型性质，并且相对熵 D ( P || Q ) 在点 P=Q 处的泰勒级数展开的第一项是分布 P , Q 之 
间的; t 2 距离。令 
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x 2 (p^q) = S 

J 

引理 17.3.3 对于 P 接近 Q 的情形， 


Q(x) 


D(P I Q )= 


(17-35) 


(17-36) 


证明： 参照习题 11.2。 □ 

17.4 关于型的不等式 

型方法对于证明有关大偏差理论和误差指数方面的结论，是一个强有力的工具。下面我们 
重述其中的一些基本定理。 

定理 17.4.1( 定理 11.1.1) 分母为 m 的型的个數满足 

+ " 吖 1 (17-37) 

定理 17.4.2( 定理 11.1.2) 如果 Up …， X ”是 i . i . d 且服从 Q ( jr ), 則： r ” 的概率仅依赖 
于它的型，即有关系式 ' 

Q fl ( x fr ) = 2" m<H(p -- ) * D<p ^ ,i0)) (17-38) 

定理 17.4.3( 定理 m 3: 型类： r ( p > 的大小）对于任意一个型 pev nt 

\ T ( P )\ <2^ (p) (17.39) 

定理 〗7.4.4(定理 11.1.4) 对于任意的及分布在一阶指數意义下，型类 T ( P ) 
在 Q " 下的概率等于 更精确 地讲， 

•: _ L _ 2 -^<^ i ^< c / , ( T ( P ))<2- ,,D(f，,,g> (17-40) 


6^ 


17.5 熵的组合界 

当务不为0或者 n 时，利用 Wozcncraft 与 Reiffen [568] 给出^ ) 的紧凑的界。 
引理 17.5.1 对于所有使吵为整數的0</|<1,9 = 1-/>，有 

( np )2-- H(p, <^= 

证明： 首先考虑斯特林逼近公式的一个强形式 [208], 叙述如下 

/2 兀 ” (f 2nn ) e 出 

基于此不等式寻求上界，我们可得 

In \ 忐 

^ 卜 /^ (f )v^(〒r 

1 

V 2nnpq P Pc T 

<_ I - 

v nnpq 

由于 ei^<2 = 1.087< V 5, 从而得到了上界。 

类似地，获得下界。利用斯特林公式，我们有 


(17-41) 


(17-42) 


(17-43) 


(17-44) 

(17-45) 
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V 2nn (*^ ) e~ 


(17-46) 


当72/>>1且叫>3,则有 


-/ l^pq 〆 V " 

= 1 - 2咐) e _ (士 p 今点) 

v 2nnpq 

e'(l2^ f I^)^e _ 9 =0.8948>y =0.8862 


(17-47) 

(17-48) 

(17-49) 


从而，直接将式 （17-49) 的估计带人式 （17-48) 就得到了下界。对于例外情形：哗=1且叫=1或 
2以及 n /> = 2 且叫 =2( 而对于 np^ 3 且叫=1或2可以通过更换 p 与9角色来处理）。在任意 


一种情形中 


np = l , 

wg = l -** w =2 ,p = y . 

Cl 

1=2, 界 = 2 

np=\r 

- ♦ w =3,/> = y . 

(；) 

§ % 

1=3, 界 = 2.92 

np = 2 , 

^ = 2 -^w =4,/> = y , 

r 

| = 6, 界 = 5.66 


于是，即使在这些特殊情形，该不等式依然有效 3 所以，只要/>关0,1,下界是有效的，而 p = 0 或 
1时，下界爆炸，因而无效。 □ 


17.6 子集的熵率 

下面我们将对微分熵的链式法则进行推广。链式法则可以根据每个随机变 ft 的熵来给出一 
组随机变《:的联合熵的一个 上界： 

^( X 1? X 2 ,-, X n )< S ^( X .) 07-50) 

我们做这种推广是要证明一个由随机变*组成的集合^子集中的熵/元素随子集尺寸增加而递 
减。该结论不是针对单个子集的，而是关于所有子集在平均意义下成立。严格的表述见定理 
17.6 .U 

定义设(^ 2 ,.”，尤）的联合概率密度函数已知，对每个5[|1,2,…， nl , 用 X ( S ) 表示 
子集 jX ,: KSl 。 令 

/ ti -> = ; E 啦圣 纽 (17-51) 

这里 / i 广表示从(\，乂 2 ,".,；0中随机抽取务个元素的子集的平均熵（比特4符）。 

下面的定理是由 Han [270] 给出的，表明了平均熵随子集的尺寸增大而单调递减。 

定理 17.6.1 

证明： 首先来证明最后一个不等式，即可以得到 


(17-52) 
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/»( X 1 , X 2 ,-, X n ) = / i ( X 1 , X 2 ,-, X ll - 1 ) + / i ( XjX 1 , X 2 ,- f X ll . 1 ) 
/ 2 (X 1 ,X 2 ,-,Xj = A(X I ,X 2 > -,X n - 2 ,X n ) + /*(X n - 1 IX I ,X 2 ,-,X n . 2 ,X n ) 

《 htXi’Xh … ， X K - 2 ， X K ) + hUXhXh … ， x n — 2 ) 


/ J ( X 1 , X 2 ,-, Xj </ l ( X 2 , X 3 ,-, X n ) + / i ( X 1 ) 

将上述 n 个不等式相加，并利用链式法则，可得 

^( X 1 , X 2 ,-, X n )< …， Xh ’ Xw'XJ 

»*1 

+ AU"X 2 , … ， X") (17-53) 

或 

國 MXl ’ X2 , … ， n X L_\， X| ”， …， X ”) (17-54) 

这就是要证的结论。现在，对于任意的通过先取定々元子集，然后同等机会 
地考虑所有的 U -1) 元子集，就可以证明々由于对每个灸元子集，有 /I 卜 因 
此，关于从《个元素中均等选取的 A 元子集取平均后，不等式仍然成立。 □ 

定理 17.6.2 设 r>0, 并且定义 
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(； 


1： 


(17-55) 


则 


(17-56) 

证明： 考虑式 (17-54), 两边同乘以 ；*, 取幂，然后应用算术平均-几何平均不等式，即可得到 
^ rh ( X lt X 29 -, X n ) 

2 A( Xi ， X 2 , … ， Xj-i，Xi + i ， ". ， X n ) (17-57) 


(n - 1) 

<丄 l rh(Xi ， X 2 , … ， X—i，Xi + 


.XJ 


n-l) 


对任意的 r >0 


(17-58) 


这等价于 t [ n ) < t n n - lo 进一步，对于任意的 k ^ n t 由定理 17.6.1 的相同讨论，关于所有 k ( k < n ) 

元子集取平均，最终可证得结论七><4”-\。 _ □ 

定义对于大小为 A 的所有子集，定义平 均每元素条件熵芈为 II ,2, …， r*l 的所有々元子集 
的条件熵的平 均值： 

h(X(S) I XiS^)) 


X ： 


(17-59) 


这里沿 （ S ) 是在给定集合兮的元素下集合 S 的每元素的熵，当集合 S 的大小增大时，可以 
预料集合 S 的元素间的相关性将会增强，这恰好解释了定理17.6.1。 

对于每元素条件熵情形，当々增大时，起条件作用的 集合没 的大小将变小，同时集合 S 的 
熵增大。下面的定理是 Han [270] 给出的，可以说 明：由 于起条件作用的集合元素个数的减少而引 
起的每元素熵的增加主导着由于元素间附加的相关性而引起的每元素熵的减少。注意，下面定 
理中的条件熵的大小顺序恰好是定理 17.6.1 中所述的无条件熵的反序。 

定理 17.6.3 

W 》 ㉚ （17-60) 
证明： 证明过程完全类似于抽取随机子集的每元素无条件熵情形的定理证明。首先证明 
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g { n n ) >^\, 然后由此可以证明余下的不等式。由链式法则得知，一组随机变量的联合熵不会大 
于单个随机变量的熵的总和 ，即： 


f l ( x 1 , x 2 ,-, x n )< E ^( x .) 

在上述不等式中，两边同时减去 ^( X 1 , X 2 ,-, X II ), ^得 

(n — DhtXuXh …, X ”) 多 f^h(X u X 2 , … ， X^-hW) 


= 公狀 ，…， U +1 ，…， x n I X ,) 


再在两边同除以 


-1), 可得 


h ( X l 9 X 29 - t X n ) 〉丄2 h ( X lf X 29 -, X i . lt X „ lt -, X n I X,) 


(17-61) 


(17-62) 


(17-63) 


(17-64) 


此式等价于 g ( ；° 彡现来证明对任意的有 此结论珥通过先给定一个走 

元子集，然后同等机会地考虑它的所有 U - U 元子集而得到。对于每一个灸元子集， g \ n) > 
以4。因此，关于从 m 个元索中均等选取的 所有々 元子集取平均后，不等式仍然成立。 □ 

定理〗 7.6. 4令 

斤> =古 U ，⑽丄:卿 (17-65) 
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(”) S :#-* 


(17-66) 

证明： 由恒等式/(久（5) ; 义（公））=/1(久（5))-/*(久（5)|；^(牙））及定理 17.6.1 和定理 
17.6.3, 可得到该定理的结论。 □ 

17.7 熵与费希尔信息 

众所周知，随机变 a 的微分熵是用来描述性复杂度的一个度敏，而费希尔信息度 m 的是估计 
一个分布参数时的最小误差。在本节中，我们将讨论这两个基础量之间的关系，并由此而得到熵 
幂不等式。 

设X是密度函数为 /(*r) 的随机变量。引人一个位 H 参数心并以参数形式将密度函数表示 
为 f ( x - d ) 9 那么关于0的费希尔信息 （11.10 节)为 

]( 0 ) = \°°JU - 0 )[ j - e \ nf ( x - ^)] 2 dx (17-67) 

在上式中，关于 z 的微分等价于关于0的微分，因而，可 将贽希 尔信息改写成 

/(X) = J ^f(x - 0)^j^]nf(x - ^) j dr 


心⑴ ㈣ 工和 


(17-68) 


上式也可改写成 


J(X) = [ f(x) dx ’( j ) dx (y 

J ~°° L /⑴」 

我们称其为关于 X 的分布的 费希尔信息。 注意，类似于熵，也是概率密度函数的一个函数。 
费希尔信息的重要性由如下定理给出。 


(17-69) 
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定理〗 7.7.1( 定理 11.10.1 :Cram6r-Rao 不等式）参数 0 的任何无偏估 计量 : T(X) 的均方误 
差的下界为费希尔信息的倒数 ，即： 

zar(T)>jj^ (17-70) 

下面我们来证明微分熵和费希尔信息之间的一个基本关系。 

定理 17.7.2(de Bruijn 恒等式 ：熵与 费希尔信息）设 X 为任一随机变量，其密度函数为 
/( 工），且方差有限。令 Z 是与 X 独立的正态分布的随机变量，均值为0,方差为1。則 

^(X+^Z) = yJ(X+/fZ) (17-71) 

其中\表示微分熾公式中的底数是 e 。 特别地，如果当 t~*0 时极限存在，則 


f t h t ( X + ftZ ) 

=4- j ( x ) 

1 = 0 ‘ 

(17-72) 

证 明：令 = 则 y , 的密度函数为 



W = J /( 工) 

J -oo 

1 ( v - x ) 

I — p=c 2 , dr 

V 2 nt 

(17-73) 


(17-74) 


foo r 1 I (y-x)~ (v — 1 Cy -j) ? 1 

= L /⑴卜云瓦 2, + 2,2 ㉗ 2 , K (1? - 75) 


通过计箅，又有 



X / u ) 

0)7k [- 〒叫 


- ~ ' dj - 


且 


^2 



= J ：^7 kt -^ + 


一 x 〉 2 戈 


( y - x ). 
2 / 


dr 


所以， 


rM y )= ij ^ gi{y) 

利用这个关系式可以计算得到 K 的熵的导数，而 Y , 的熵为 

h e (Y,) =-\ g t (y)\ng,(y)dy 

J -oo 


取微分，可得 

去 M Y,) =-{^ “( ： y)dr J _ ^ l (y)lng,(y)d y 

=- TL^ {y)Ay - III ^2 g ,( y )^8,( y)dy 

由于 ]^( 30 办 = 1 ，故上式 中第一 项为零 c 第二项由分部积分可得 


(17-76) 

(17-77) 

(17-78) 

(17-79) 

(17-80) 

(17-81) 

(17-82) 

(17-83) 
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旮 ,( y ,) = - y [^^ ing ,( y ) ] _ + [^ g ,( y ) ] 2 ^ jd > (17-84) 

式 (17-84) 的第二项为因此，如果能够证明式 （17-84) 中的第一项为零，即可完成定理 
的证明。可以将第一项改写成 


㉟ 心): 


d gt(y)~ 

_Ay_ 

-Vg,Cy)- 


[2y/g,iy)\n^fg,(y )] 


(17-85) 


在上式中，对第一个因子的平方就是费希尔信息。因此，当: y — ±«>时，第一个因子必定有界0 
由于当文-0时， j - ln . r -0, 并且当: y ，± oo 时沿 （ W ^ O , 则第二个因子趋于0。所以，式 （17-84) 
中第一项的极限均为0,从而定理获证。在证明式 （17-74), 式（17-76)，式 （17-78) 和式 （17-82) 的 
过程中，积分和微分符号交换，严格的证明需要用到控制收敛定理和中值 定理； 细节可参见 
Barron [30 ] o □ 

利用该定理可以证明熵幂不等式，而它可给出相互独立的随机变撖和的熵的下界估计。 

定理 17.7.3( 熵摹不等式）设 X 和 Y 为相互独立的 n 维随机向量，它们的密度函数已知，則 

2^ ( X ^ Y ) ^2^ ( X ) +2^ <Y, (17-86) 

我们来简要叙述一下由 Stam [505] 和 Bl a chman [61] 给出该定理证明方法的基本步 骤， 17.8 节 
会讲述另一个不同的证明方法。 

swm 对熵幂不等式的证明是基于对扰动的讨论。令 7 i = i,x = x + /7 rr ) z 1 ， y ,== y + 


/^ T ) z 2 ，其中&和为相互独立且服从人 "(0 ,1) 的随机变擞。若定义 

2 2A(X t ) + 2 2A(V,) 

sU ): ― 2 2 a ( x , + \\)一 （17-87) 

则熵幂不等式简化为只需证明 5(0 X 1 即可。如果当£400时， /(/) — ~且尽(0 —⑺，那么容易 
证明 S <00) = 1 0 另外，对于 tX ), 如果有 s ' ⑴》，则可得 S (0><1 。 而为使成立 ，徭 
要适当的选取函数/(0和只（0,并且需要应用定理 17.7.2 的结论，以及利用费希尔信息的卷积 
不等式， 

7 uVyj ^7 (xj + 7 m U 7-88) 

通过归纳，熵幕不等式可以推广到向敏情形，其细致的讨论请参见 Stam [505] 和 Bl ac hman [60 合 
写的论文。 
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17.8 熵幂不等式与布伦-闵可夫斯基不等式 

对于两个独立随机向看和的微分熵，熵幂不等式根据单个随机向景的微分熵给出了下界。 

在本节中，我们将重提和概述关于熵幂不等式的另一个证明。同时，将展示如何利用共同的证明 [674 
方法证明熵幂不等式与布伦-闵可夫斯基不等式是密切相关的。 

对于〗维情形，可以将熵幂不等式改写成另外的形式以强调它与正态分布之间存在的关系。 

设 X 和 Y 是相互独立的随机变量，其密度函数均已知。并令 X '和 Y ' 为两个独立的正态分布，且 
它们的熵分别与对应的 X 与 y 相同。于是， 2 2A(x) = 2 2MX * , = (27 re )<7 2 x o 类似地，有 2 2AlY) = 

(2庇)^^。因此，由于； r 和 y ' 的相互独立，熵幂不等式可以改写成 

2 2MX + Y) >(2lze)((J 2 x ， + a 2 r) = 2 2MAT + r ) (17-89) 

这样，我们可获得熵幂不等式的一个新陈述。 
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定理 17.8.1( 墒幂不等式的新陈述）对于两个独立的隨机变量 X 和 Y, 

h(X+ Y )>/ i ( X '+ 广） (17-90) 

其中 X '与 K 为相互独立的正态分布的随机变量，且满足 MX ') = MX ) 和 h(Y ， ) = h(Y ) 0 

该熵幂不等式与布伦-闵可夫斯基不等式具有惊人的相似，后者给出的是关于集合和的体 
积的界估计。 

定义 两个集合 A , SCZ 7 e » 的 集合和 A + B 定义为集合 U + ： y :: reA ，： yGB |。 

例 17.8. 1以原点为球心，半径为1的两个球体的集合恰为以原点为球心半径为2的球体。 

定理 17. 8 . 2( 布伦-闵可夫斯基不等式）集合 A 和 B 的集合和的体积不小于分别与 A 和 fi 
体积相同的两个球体 A ' 和庄的集合和的体积 ，即： 

V(A^B)>V(A ， + B ， ) (17-91) 

其中 和灰是 以原点为球心且满足 V ( A ) 和 V ( B ')= V ( i 3) 的两个球体。 

上述两个定理的类似最先在 [104] 中指出。而 Dembo[162] 和 Lieb 受到加强形式的杨氏不等 
式的启发，给出了一个共同的证明方法。同样的证明方法也可用来证明是熵幂不等式和布伦- 
闵可夫斯基不等式的特殊情形的一类不等式。为叙述这个共同的证明方法，先准备几个定义。 

定义设/和 g 为及”上的两个密度函数，记表示两密度函数的卷积。定义密度函数 
£的范数为 

ll/ll r = (J/ r (x)cLr) r (17-92) 

引理 17.8.1( 加强的杨氏不等式）对于两个任意密度函數/和幺在尺”上， 


II/* 


^11 ,<(爭) ! 11/11山1“ 


其中 


P 9 


-1 


且 


证明： 这个不等式的证明过程相当 复杂； 详细的讨论可参见 [38] 和[73]。 
下面我们定义更一般的熵。 

定义 r 阶 Renyi 熵 \(X) 定义为 


(17-93) 


(17-94) 


(17-95) 

□ 


MX ) =出 log[f/ r (x)dx] 

其中 0<r<oo, r^lo 如果取 r-M 时的极限，就可得到香农熵函数， 

h ( X ) = hi ( X ) = - J/(x)log/(x)dr 

如果取时的极限，则是支撑集的体积的对数， 

h 0 ( X ) = log(/i lx：/(x)>0| ) 

于是，零阶 Renyi 熵司 ■以给出密度函数/的支撑集的度量的对数值。而香农熵幻给出定理 
8.2.2 描述的“有效”支撑集的尺寸的对数值。下面叙述关于 Renyi 熵的熵幂的一个等价定义。 
定义 r* 阶 Renyi 熵幂 V 八 X )定义为 


(17-96) 


(17-97) 


(17-98) 
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X) Hexp [吾/ *(X)] ， 


0 < r ^ oo,r # 1,——+ — = 


(17-99) 


i / i (\ x : f ( x ) >0|)" r = 0 

对两个独立的随机变量X和 y 及任意的 0<r<oo, 0<A<1, 有 
iogV r (x+ y)^AiogV p (x) + (i -A)iogV 9 (y) + h ( a ) 


(17-100) 


其中 /> = 


A(1 — 


(l-A)(l-r) 


,H(A)= -AlogA-(l-A)log(l-A) 


证明： 在杨氏不等式 （17-93) 两边同时取对数，可得 

^7logV r (X+ Y)>jAogV p (X) + ^logV,( V) + logC r 

- logC p - logC 9 (17-101) 

令 A = r ’ / p ’ ， 并利用式 （17-94)， 可得 1 一 A = 〆//， P = r + 久 (\- r )，9 = r + q 一 - r ) 。 
于是式 (17-101) 变为 

/ 

logV r (X+ V)^A logV p (X) + (1 - A )log v 9 ( y) + ylogr - \ogr 

• • • • 

- ^\ogp - ^\ogq + ^\ogq f (17-102) 

= AlogV /> (X) + (l-A)logV 9 (y) 

/ 

+ ylogr-(A + 1 - X)\ogr 

- -r-logp + Alog/>’ - — log <7 + (1 - A )log〆 (17-103) 

P 9 

=AlogV p (X) + (1 - A)logV,(y) + ^Tjlogr + H(A) 
r + A(1 - r), r 


r + A(1 - r), r 

~ r-1 log r + A(l-r) 

W_〜 r+ (卜； ^ (17-104) 

= AlogV p (X) + (l-A)logV,(y) + H(A) 

浩 卜 (^ 4 ^)- O] (_ 

在这里，最后一步省略了具体的代数运算。 □ 

由此可知，布伦-闵可夫斯基不等式和熵幂不等式均可作为该定理的特例而得到。 

• 熵幂不等式。 r—l 时，取式 （17-100) 的极限，并令 

^vjfrvjy) (17 - 106) 

即可得到 

v,(x+ y)^v 1 (x) + v,(y) (17-107) 

此即熵幂不等式。 

• 布伦-闵可夫斯基不等式。类似地，令 n , 并选取 


(17-106) 


(17-107) 
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A = 


vWx) 


^ r v 0 (x)+vvo(y) 


可得 


(17-108) 


(17-109) 


VV 0 ( X + Y )^ VVo ( X ) 十 v / V 0 ( Y ) 

现在，令 A 是 X 的支撑集， B 是 Y 的支撑集。那么 A + fi 为 X + Y 的支撑集，于是，式 
(17-109) 可以简化为 

[^(A + B )] i ^[, i ( A)]n + [^( B)]i (17-110) 

此即布伦-闵可夫斯基不等式。 

这个一般化的定理将熵幂不等式和布伦-闵可夫斯基不等式统一起来，同时，对于引人介于 
两者之间的新不等式也起到积极的作用。这个深一层的意义加强了熵幂和体积之间的相似之处。 

17.9 有关行列式的不等式 

在本章的余下几节中，假定 K 为非负定对称的矩阵。记 I / O 为 / C 的行列式。 

先来证明 由樊® [199] 给出的信息论结论。 

定理 17.9.1 loglfCl 是关于 K 的凹函 數 3 

证 明：设 A 和:^ 2 为 / I 维 iE 态分布 X , 〜 A /*(0, K ,) ,/ = 1,2。对某个 0< A <1, 令随机变世 
没的分布为 

Prl ^= l | = A (17-111) 

Prl ^ = 2| = l-A (17-112) 

假设心&和&相互独立，并令 Z = K , 则 SI 知 Z 的协方差矩阵为 + 虽然 

如此， Z 已不是多元正态分布了。先利用定理 17.2.3, 然后由定理17.2.1，可得 


ylog(2ire)" \ XK t +( l - X ) K 2 \> h ( Z ) 

> h ( Z \ d ) 


(17-113) 

(17-114) 


= A jlog( 27 re)”li< 1 l 


(l-A)ylog( 27 rc)"|K 2 l 


于是， 


|AK, + (1-A)K 2 |^|K,| a | K 2 | 1 - a 

此即要证的结论。 

网 利用信息论的方法 [128] 可以证明如下的阿达马不等式。 

定理 17.9.2( 阿 达马） IKKI1K h , 当且仅当 K f> = 0,,^> 等号 成立。 
证明： 设X〜 AT(0，K)， 则 


(17-115) 

□ 


Ylog(27re)"lK |=/*( X If X 2 , 


>OU,)= £ +log27rel 


(17-116) 

当且仅当 X lf X 2 ,-, X n 相互独立，即 K t> = 0,i^> 等号成立。 一 □ 

下面证明由 Szasz [391] 得到的阿达马不等式的推广形式。设 •••,/*) 表示由 K 的下 
标为 ii ， h， …，“ 的行和列上的元素构成的々 x 々主子阵。 

定理 17.9.3(Szasz) 如果 K 为； i x ”的正定阵， P* 表示 K 的所有々级主子式的乘积、，即， 
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Pk = 


n 


I K (“， f 2 ，”.，**) I 


則 


证 明：设 x 〜 AT ( o ， k )。 利用恒等式/*以= ’ 




可得该定理。 

我们也可证得一个相关的定理。 

定理 17.9.4 设 K 为 7 iX „ 正定阵，令 


(17-117) 

(17-118) 
及定理 17.6.1, 立即 

□ 


S k H) = 7m 2 I K“i ， £ 2 , … ， I*) I 士 


則 


证 明:由 恒等式 #> = (21^)5^ 及取 r = 2, 然后利用定理 17.6.1, 立即可得。 
定理 17.9.5 设 


叫 s m 产 


則 


(lU?)^ = =丨 K d 

证明： 利用定理17._6.3及恒等式 

/ i ( X ( S ) lX ( S c )) = ylog (2 Kc )^ , 

立即可得证。 

不等式串两端形成的不等式 Q ^ Q n 可以改写成 


其中 


( T ? = 


K 1^ 11(7? 


IKI 


(17-119) 

(17-120) 

□ 

(17-121) 

(17-122) 

(17-123) 

□ 

(17-124) 

(17-125) 


| K (1，2, …，《-1，1 + 1，…， n)l 
表示由剩余的所有 X ,'线性预測产生的最小均方误差。于是，如果，…，\是联合 
正态分布， d 是在给定其余所有的 X ,下 X ,的条件方差。将这点与阿达马不等式联合起来，可得 
到关于正定阵的行列式的上界和下界 估计： 

推论 

[1X)1 K l>Tl a? (17-126) 

8 9 

因此，协方差阵的行列式介于所有随机变* X ,的无条件方差 K ,, 的乘积与所有条件方差 d 
的乘积之间。 

接下来证明特普利茨矩阵的一个性质，由于它可以视为平稳随机过程的协方差矩阵而显得 
很重要。特普利茨矩阵 K 的性质是若 U - j | = | r - d , 满足化= 1^。设&表示主子阵 K ( l , 
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刚 



2,…，々）。对于这类矩阵，利用熵函数的性质，容易证明如下的性质。 
定理 17.9.6 如果 nX w 正定阵 K 为特普利茨阵，則 

1〜|>| /< 2 | 专 

且随々递减，同时满足 

limlKji =10117^^7 

证明 •- 设 U lf X 2 , …，； O 〜 AT(0，KJ, 则有 

hlX^Xh ，…， x ^ hix ^- nx ^ 1 ) 


(17-127) 

(17-128) 

(17-129) 


= ^log(27re)j]^j (17-130) 

于是，的单调性可由 X,)的单调性得到，而 

/ z (XJX*. i ,-,X 1 ) = / i (X^ 1 |X*,-,X 2 ) (17-131) 

^(X* M |X*,-,X 2 ,X 1 ) (17-132) 

其中的等式坷由特普利茨假设得到，不等式可由条件作用使熵减小的亊实得到。由于 
•••,&) 随 A 递减，则可知移动平均 

jh ( X lt - t X k ) = I 乂… ，…， D (17-133) 

也随走递减。因此，由关系式…，； ^) = jlog(27re)y/0 可知式 (17-127) 成立。 口 
最后，由于 MX」Xd ，…， &) 为递减序列，则其极限必然存在。因此，利用 Ccsdro 均值定 
理，可得 


lim /z(XpX 2L -_,XJ = lim 丄 丨 x t - t , … ， X0 

w ■-» n kml 

= lim/i(X n |X nM ,-,X 1 ) 

_-*09 

(17-134) 

若将上式转换成行列式，可得 

limlKji = limr^T 
« ■— | r\ n - 1 1 

(17-135) 

定理 17.9.7 (闵可夫斯基不等式 [390]) 

iKi + Kzl^ lKjl ^+ lKzl 17 " 

(17-136) 

证明： 设X,与&相互独立，且X,〜乂(0,/0。注意到 Xi + X^AaOAi + A), 并利用熵 

幂不等式(定理 17.7.3), 珥得 

(2ite)|K 1 + K 2 l |/n = 2«/z(X 1 + X 2 ) 

(17-137) 

>2nA(X,) + 2^(X 2 ) 

(17-138) 

= (27re)|K 1 | ,/ " + (27re)|K 2 | ,/ " 

(17-139)D 


17.10 关于行列式的比值的不等式 

下面证明有关行列式的比值的一类相似的不等式。在论述下一个定理之前，先来讨论最小 
均方差线性预测的概念。如果〜#(0，心），那么，我们知道在给定 （ U2, …, 
X "—)下， 的条件概率密度函数是一维正态分布，且其均值关于 x lf x 2 ，… ，尤 M 线性变化， 
条件方差是4。这里的4是在 给定; ^, X 2 , … ，尤- i 下的 所有线性估计 M 的均方误差 £：( 尤 
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-；^) 2 中的最小者。 

引理 17.10.1 a 2 n =\ K n \/\ K n . l \o 
证明： 利用的条件正态分布性质，我们有 


ylog 2i,e<j 2 n =/z(XjX 1 ,X 2 ,-,X n _ 1 ) (17-140) 

= / I (X 1 ,X 2 ,-,XJ-/i(X 1 ,X 2 ,-,X fI . 1 ) (17-141) 

= ~log(27ce) n IKJ- 士 logUirc)”- 1 1 K n . x \ (17 - 142) 

= -i-log27re|Kj/|K n . 1 | (17-143)D 

由下面定理可得，所有可能的协方差矩阵 IKJ 的全体 d 有最小值。这类问题曾在 ft 大熵的 
谱密度估计中出现过。 

定理 17.1O.l(Bergstr0m[42]) log( I K„| /| ) 关于心为凹 函数。 

证明： 由于 logd/O/lK^」） 为两个凹函数的差，所以定理 17.9.1 将不再适用。 令 
其中 氏）， X 2 〜 AT(0,7；)，P r W= l|=A = l-PrW = 2l， 且假设 X!,X 2 和沒相互独立。 

Z 的协方差阵心为 

K n = AS n + (l-A)T„ (17-144) 

从而，该定理可以由下面的不等式串 推出： 

A ^•log(27re) / 1Sj/ lS ”- p | + (1 - A)ylog(27re) p l T„|/| T n . p \ 


6831 


=AA(Xi, n ,Xi tlI -i ， ***,Xi t>l -p + |I ， … ， Xh-pl) 

+ (1-A)^”，X 2 .『 1 ，、X 2 . ii _” 1 |X 2 . 1 ，、X 2 . ii _ p 1) (17-145) 

= /*(Z n ,Z n . 1 ,-,Z ll . / , M |Z I ,-,Z n - p ^) (17-146) 

…，乙 - pmIZv.U (17-147) 

^ i log (27 re ) ' T 7 c 6 (17_148) 

其中 (a) 由 A(X n ,X n . I ,-,X >l -^ 1 lX 1 ,-,X >f . p ) = Ai( X lf -,X n )-/i(X 1 ,-X n . /> )lftfti f (W 由 
条件作用使熵减少的事实得到，而 (c) 可以由定理 17.2.3 的条件形式得到。 □ 

定理 17.10.2(Bergstrem[42]) I 仏 I /| Kri I 关于 为凹函数 。 •• 

证明： 再次利用高斯型随机向量的性质。假定有两个独 立的” 维高斯型随机向量 
#(0，人)和民〉，设 Z=X+Y。 于是 

(17-149) 

>h(Z n \Z r ,^ 9 Z n -2f-^ l9 X^ lt X^ 2 r-,X l9 Y n . lt Y n , 29 - 9 Y l ) (17-150) 

= h(X n +Y H \X n . lt X n . 29 -,X lt Y H . lt Y n . 29 -,Y l ) (17-151) 

= E _ ^ _ k)g[27reVar( < X n + Y” I X”]，X”-2, …， Xi ， Y”-i，Y”-2，“. ， Yi)] (17-152) 

= E -ylog[ 2 ire(Var( X„ I X”-! ， X„-2，."，D + Var( Y„ V^-i ， Y”-2 ， “. ， Yi) )] 



2^ Ml ^ + T ^7 l )) 


(17-153) 

(17-154) 
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= 2MMt^TT + T&!t)) 


(17-155) 


其中 

( a ) 可由引理 17.10.1 得到， 

( b ) 由条件作用使熵减少的事实得到， 

( C ) 是由于 z 为 x 和 y 的函数， 

( d ) 由于在给定 x lf x 2 r ', x m - l9 iva ， …，下， x ” + 是高斯型的，因此’可以根 

据方差给出它的熵的表达式， 

( e ) 可由在给定过去状态 XpA ， … ，兄 - u y ” 的相互独立性得到， 

(0 因为对于一组联合高斯型随机变董，条件方差为常数，即独立于起条件作用的随机变量 

(引理 17.10.1)。 

若令 A = AS , B = AT , 则可得到 

| AS W + ATJ > l . g a.L + T 1 T a.L (17-156) 

\ XS n .^ XT m ~\ >X IS ( I - 1 I +A \ T n . t \ 

此即说明关于尺„是凹函数 a 然而，对于可以举出些简单的例子来说 
明 | K „|/ lK n - p l 关于未必是凹的。 口 

6851 利用上述技 巧，可证明有关行列式的其他许多不 笮式， 其中一些会在_ 

要点 ，外 $ 

M H ( X )=- Sp ( J ：) logp ( J ：〉。 

相对熵 D ( plU ) = ；^ U ) log ^。 

互傕息 /( x ; y )= S /» u ，： y ) iog ^^^。 

信息不等式 D (/> IU ) X )。 

液近均分性质 -^ iorp ( x i . x 2 ,- sx i .)- h (^) 0 f C 

数搌压缩 HU )< f < H ( X ) + l 。 /:，:: 

科尔莫戈罗夫复杂度 iCU > = minw ⑷〜/(/0。 

普适 *車一丄一幻*〉。 ： n a - 

倍 道窖量 C = max />( x )/( X ； y)o 

P 数据传输 

• k < c : 可以渐近达到无误差的通信 

• i ?> C : 不 可能渐近达到无误差的通信 

离斯侑道的容量 C ={ log ( l ^ g)o ; V 

率失真 K ( D ) = min / ( X ; X ).在满足 ( X ,又 ） <D 的全体/> ( iU ) 

上进行。 ： 4 V 

投资增长蓽 W 9 =_v£log»^X 。 
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习题 


17.1 正定阵之和。 对于任意两个正定阵〜和尺 2 ，证明 + 

17.2 关于行列式的比值的樊畿不等式 [200]。对任意的1</><打及正定阵 K = K (1,2, …，”），证明 


17.3 

17.4 


17.5 


K I 






K(i, 


2,…， 


(17-157) 


K(p + 1，/> + 2,… ， n) I 义 M I K(p + l，p + 2,… ， n) I 

行列式比值的凸性。 对于正定阵 K 及 K 0 , 证明 ln( | K + K 0 |/| K I ) 关于 K 是凸的。 

数据处理不等式。 假设随机变 MU 2 ， X 3 与 X 4 构成马尔可夫链 Xr - X 2 — X 3 — X 4 。 证 


明 

/( X 1 ； X 3 )+/( X 2 ; X 4 X /( X 1 ; X 4 ) + /( X 2 ; X 3) (17-158) 

马尔可 夫链。假设随机变 MX , 与 W 构成如下马尔可夫链 

X — Y —( Z , W ), 即 p ( x , y 9 z f w )~ p ( x ) p ( y \ x ) p ( z , w \ y ) 


证明 


/(X ； Z) + /(x ； wx/(x ； y) + /(z ； w) 


(17-159) 


历史回顾 

香农 [472] 首先给出了熵»不等式的陈述，而第一个正式的证明是由 Siam [ 505 ] 和 Blachman 
[61] 完成的。至于熵幂不等式和布伦-闵可夫斯基不等式的统一证明，可参看 Dembo 等[164]。 

本章中的大部分矩阵不等式是由 Cover 和 Thomas [118] 利用信息论方法得到的。有关摘率的 
一些子集不等式，可参见 Han [270]。 
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